成果产出
中国科技云统一运管平台具备将大规模云网一体化基础设施进行统一纳管的能力。能针对网络、计算、数据和应用等信息化基础设施进行7*24小时运行监控、故障告警、事件管理及运维报表输出,实现对网络的测、管、控全方位保障。网络性能监测子系统实现各网络端口的出入流量的实时监测和展示,各指定端到端链路的ping包延迟和抖动监测、网络设备的syslog记录监测、配置修改审计等功能。基于flow技术,实现IPv4/IPv6流量区分、院内/院外流量区分、抓包分析、流量计费等网络流量分析与监控功能。基于DPI技术实现网络应用数据分析,可以从用户IP、外部IP、应用、IP归属地区等多个维度展示数据之间的关联关系,实现从链路流量到协议分析的深度解析。实现故障处理全生命周期管理,按照质量标准体系执行故障工单的生成、分配、处理、解决等工作流管理。计算运管子系统实现以统一的视角监测超级计算资源的运行状态,跨地域、跨网络进行统一展示、统一管理,以自动报警、自动响应的方式快速处理计算系统的异常,提高计算资源的持续可用性。将底层硬件资源运行状态、作业运行情况、集群资源使用情况、集群分布情况等数据进行采集、存储和统一展示,帮助运管人员快速处理计算系统异常。支持大规模系统异地部署,实现跨系统、跨区域的监控和管理;通用计算运管子系统采用多集群架构管控,各集群独立进行数据采集分析,并实时显示各集群平台系统健康状态,支持CPU、内存、网络、存储,云主机运行状态信息实时信息;支持AIOps运维雏形功能,可辅助判断、分析、优化集群环境建议;具备API数据接口,满足第三方应用对接及二次分析需求;集群内异常信息支持实时告警展示并支持邮件通知一线、二线运维人员。
附件下载