解决方案
中国科学院过程工程研究所多相复杂系统国家重点实验室进行了图形处理器(GPU)上的分子动力学(MD)模拟。即利用配备了一片NVIDIA Tesla™ C870的服务系统来运行NVIDIA CUDA™架构, 通过方腔流及颗粒-气泡接触等实例初步展示了此方式从微观上模拟介观行为的能力。经证实,在NVIDIA公司技术助力下,该计算过程速度是以往运用单核CPU计算的20到60倍,最高可达150 Gflops。
传统GPU对非图形应用支持有限,只能通过图形API编程,内存带宽较低且访问限制多,从而制约了其性能发挥。NVIDIA CUDA的发布打破了传统GPU的性能瓶颈,提供了新的软硬件架构。本次模拟的多相体系中,CUDA把GPU直接视作数据并行计算设备而不再将计算映射到图形操作上,以扩展性较好的区域分解和常用的消息传递接口(Message Passing Interface, MPI)协议实现各节点间GPU的并行计算,以类C语言的方式给开发者更大自由来实现GPU算法。CUDA还能结合OpenMP,MPI和PVM等其他并行方式在节点内和节点间继续扩展计算能力,更好的发挥了GPU的强大性能,并将计算中的数据访问效率提高了一个量级以上。Tesla C870的有效计算性能(指计算分子对相互作用时的浮点操作数)是以往所采用的单核CPU的20~30倍。若考察极端情况,即只测试耗时最长的分子间作用力计算,GPU更占优势, 约能发挥150 Gflops,占其可利用计算峰值(346 Gflops)的40%多,而CPU能发挥2.4 Gflops,GPU的计算能力达到CPU的60倍之多!说明GPU很适合像多体问题。
|