成果产出

智能化超算运行管理平台

放大 缩小 |

  智能化超算运行管理平台旨在以统一视角监测位于不同地域高性能计算资源的运行状态,通过自动报警、智能分析等技术手段快速处理系统异常,提高计算资源持续可用性和服务质量。平台采用松散耦合分布式架构设计,具有良好的横向扩展能力,可支持单机10000以上节点规模的超级计算集群的接入和运行监测。区别于传统监控系统,平台提供自定义数据采集、业务拓扑关联、运维知识库等功能,同时尝试引入智能异常检测算法预判集群计算任务运行态势。目前,该平台已用于支持中心自有超大规模先进计算系统的运行。 

附件下载