工作动态

高性能计算部在双精度矩阵乘法优化研究中取得进展

2022-03-09 13:47 | 放大 缩小 |

  针对GPU上的双精度矩阵乘法(DGEMM)优化,高性能计算部提出了一种平衡GPU硬件资源的细粒度预取方案,有效减少了几类常用分块方法的寄存器使用数量,提高了线程级并行。研究成果发表于国际会议International Parallel & Distributed Processing SymposiumIPDPSCCF B类)上。相关论文第一作者为博士生李佳霖,导师为张鉴研究员。 

  通用矩阵乘法 (GEMM) 是科学和高性能计算的基本内核之一。GEMM 的巨大计算成本和广泛采用使其对高性能的优化成为一项非常有益的任务,而图形处理单元(GPU)作为如今提供计算能力的主流硬件,在其上进行 GEMM 优化显得尤为重要。GPU 上优化 GEMM 的性能,通常将矩阵依据存储层次结构进行分块来适应线程层次结构。在实践中,线程级并行不仅受分块方案的影响,还受每个分块消耗的硬件资源的影响,例如寄存器和共享内存。 

  基于上述问题,研究人员提出了一种细粒度的预取方案(FGPS),通过平衡GPU硬件资源的使用来提高线程级并行性。并通过分析指令和线程级并行性的得失,构造一个量化模型来估计FGPS的整体性能增益。此外,还将FGPS集成到自动调优的开源工具 Tensile 中,以自动生成汇编内核代码,以最大限度地提高 DGEMM 对一系列问题大小的性能。实验表明,对于单个和批量矩阵-矩阵乘法,在各种矩阵大小上的性能加速约为 1.1倍。(撰稿:李佳霖) 

  相关成果: 

  Jialin Li, Huang Ye, Shaobo Tian, Xinyuan Li, Jian Zhang. A Fine-grained Prefetching Scheme for DGEMM Kernels on GPU with Auto-tuning Compatibility. IPDPS Conference, 2022. 

 

  1 常用两级分块方法 

  2 双缓冲与FGPS 

    

  

  

  

附件下载