针对对称特征值问题高效求解,我中心科研人员研发了并行算法库软件包HPSPES(High Performance Symmetric Eigenproblem Software)。近期,完成了HPSPES软件包中稠密特征值问题求解的全部关键算法模块在GPU平台的整体移植与深度优化。在广义转标准算法中,采用了将Cholesky 分解和广义转标准混合求解的并行算法,既降低了通信开销,又实现了CPU和GPU的协同工作。三对角化过程通过行条块和列条块同时更新,保证整个矩阵的完整性,避免了二维通信域下上/下三角矩阵-向量乘带来的较大通信开销。另外,引入行-列通信域间转置通信采用块-块间完全并行的点-点通信。软件包的单GPU卡性能与256CPU核心性能相当,在“东方”超算计算系统上可扩展到全机。
图1 HPSPES算法库软件包架构图
图2 GPU版本软件包与CPU版本软件包性能比较示意图
图3 2,000,000阶矩阵测试结果示意图
相关研究成果已发表在CCF A类期刊《软件学报》[1]和《计算机研究与发展》[2]中。论文第一作者为中心高性能计算部的博士研究生刘世芳,导师为赵永华研究员。该研究提出的优化方法已获得授权发明专利[3]。研究工作得到了国家重点研发计划项目、院战略性先导科技专项的支持。(撰稿:刘世芳)
相关成果:
[1] 刘世芳, 赵永华, 于天禹, 黄荣锋. 并行对称矩阵三对角化算法在GPU集群上的有效实现[J]. 计算机研究与发展. 2020,57(12):2635-2647.
[2] 刘世芳, 赵永华, 黄荣锋,于天禹,张馨尹. 基于批量LU 分解的矩阵求逆算法在GPU上的有效实现[J]. 软件学报. 2022. 已录用.
赵永华,刘世芳,黄荣锋. 一种图形处理器上基于延迟修正的批量矩阵求逆方法.(202110247100.4).