工作动态
针对天文N体在GPU异构并行模拟中的问题,我中心科研人员设计了一种性能优化方法,该方法在GPU上构造了短程力作用列表和线程块流水调度,将粒子信息轮流加载到GPU共享内存中,采用插值多项式和混合精度优化了核心函数,实现了GPU上重排序并规约合并目标粒子信息,提升了天文N体异构并行模拟在国产加速卡上的计算性能。优化后的程序在加速卡上的运行速度与同数量CPU核相比,短程力模块加速比可以达到1000倍以上。
图1 GPU上的短程力计算流程图
图2 模拟结果(暗物质粒子分布密度场,粒子数256^3)
该研究成果已被超算领域的国际期刊Journal of Supercomputing(SCI,JCR Q2类)录用。论文第一作者为中心高性能计算部的硕士研究生赵文龙,导师为王武副研究员。该研究提出的优化方法已获得授权发明专利(一种基于GPU的N体模拟程序性能优化方法,ZL 202110077894.4)。研究工作得到了国家重点研发计划、中国科学院战略性先导科技专项和“十三五”科研信息化专项的支持。(撰稿:王武)
相关成果:
Wen?Long Zhao; Wu Wang; Qiao Wang,Optimization of cosmological N-body simulation with FMM-PM on SIMT accelerators,Journal of Supercomputing, 78(5):7186-7205, April 2022.
附件下载