工作动态

我中心在高效3D卷积算法上取得进展

2024-08-27 17:51 | 放大 缩小 |

高性能计算和人工智能的新兴发展显著扩展了三维卷积神经网络(3D CNN)的应用。然而在实际的需求应用中,复杂的3D卷积计算是影响性能的主要因素。

近日,中心高性能计算部科研人员基于新一代SW26010Pro处理器提出了一种高效的3D卷积算法。新一代神威(Sumway)超级计算机在HPC+AI领域表现出卓越的计算能力该工作依托Sunway平台对三维卷积算子进行了详细的分析与优化,针对SW26010Pro架构的设计了三级分块算法(图1),并进行了访存优化,同时提出了一种新颖的散点通信策略(图2),充分利用片上网络带宽。实验结果表明,与基于xMath2.0库的Sgemm实现方法相比,我们的三维卷积算法实现了平均2.54x的加速比,并且实现了高达2.12 Tflop/s的单精度浮点性能,达到理论峰值性能的92%

 3D卷积三级分块算法

 RMA散点通信策略

该研究成果已被International Conference on Parallel ProcessingICPPCCF B会议录用并发表,论文第一作者为我中心高性能部博士研究生李佳霖,通讯作者为我中心高性能计算部张鉴研究员。该成果得到中国科学院先导专项(XDB0500101)的支持。

相关成果:

Li J, Feng Z, Gao Y, et al. High-Performance 3D convolution on the Latest Generation Sunway Processor[C]//Proceedings of the 53rd International Conference on Parallel Processing. 2024: 241-251.

责任编辑:郎杨琴

附件下载