系统平台

网络系统科研数据共享平台

放大 缩小 |

  2020年11月15日,在第二届中国互联网基础资源大会上,中国科学院计算机网络信息中心与计算技术研究所联合发布了网络系统科研数据共享平台。

  互联网已经成为现代社会的基础设施之一。互联网协议与基础资源在设计之初,并没有为现今如此丰富的应用以及多样的接入方式作充分考虑。为了更有效的支撑应用与接入方式,互联网遵循“边建设,边观察,边优化”的发展模式。这种模式的重要源泉是网络系统相关数据,包括性能数据、流量数据等。比如,基于Web流量数据,科研人员发现网络流量存在自相似特性,而不服从泊松过程,这为设备缓存队列设计奠定了基础;基于流量矩阵分析,科研人员发现流量矩阵的低秩特性,为流量工程奠定了基础;而文件访问频率的重尾特性是CDN之所以可行的原因。可以说,网络系统研究领域比其他领域更早的采用数据驱动的研究方式:20年前,网路系统科研人员就发起了网络测量与分析的顶级国际会议IMC。

  网络系统数据来源主要有主动探测与被动采集。从数量上讲,被动采集为主,包括被动的流量采集、网络与业务系统日志等。通常,这些数据仅在数据拥有方处理与使用。这种模式并不利于网络系统的相关研究。一方面,数据的拥有方(如ISP等)并没有足够精力与经验挖掘数据,推动相关研究;另一方面,单一拥有方的数据往往并不全面,只有多方数据相互补充、相互验证才能发现最基础的规律。然而,由于相关数据共享平台的缺失,研究人员通常仅在个人主页,或者随代码放到类似GitHub这样的平台。此外,网络系统运行产生的数据很多涉及敏感信息,无法直接共享,脱敏处理之后又可能破坏数据的研究价值。因此,迫切需要针对网络系统数据共享的专业平台,提供数据长期保存、汇交管理的基础设施以及必要的隐私保护解决方案。

  构建网络系统科研数据共享平台面临多方面挑战。首先,需要一支在数据服务方面有经验的队伍,长期非盈利的建设与完善平台,包括平台功能维护、相关服务提供以及数据合规性检测。其次,考虑到专业性,建设与运营者在网络系统研究领域,特别是网络测量分析建模领域,有一定的基础。平台提供的相关报告与研究工作,也需要专业团队支持。此外,为扩大可共享数据的范围、保护共享数据涉及的敏感信息,还应提供隐私保护和权限管理的系统化解决方案。

  基于上述原因,中国科学院计算机网络信息中心建设与维护的网络系统科研数据共享平台,并由中国科学院计算机网络信息中心与计算技术研究所共同提供技术支持,双方在网络测量、分析建模领域有20年的研究经验。此外,中国科学院计算机网络信息中心负责建设和维护国家基础学科公共科学数据中心,在科学数据服务领域积累了丰富的经验,在数据存储、发布、管理、共享等方面的技术储备为构建网络系统科研数据共享平台打了下坚实的基础。

  网络系统科研数据共享平台的数据管理服务架构如图1所示,该平台借助中国科技云分布全国的存储网络实现数据长期保存和异地灾备,为用户提供一站式的数据-论文-工具汇交、长期保存、分级共享等一系列数据管理服务(如图2所示);并依托于中国科技云丰富的算力资源推出面向敏感数据挖掘分析的不离场分析服务,分析结果有限范围内共享,避免因数据加密分发或远程分析带来的二次泄密及端口开放风险,实现数据可用不可见(如图3所示)。在保障数据所有人权益和数据隐私的基础上,促进数据的可发现、可引用、可重用,提升互联网科学领域的资源共享水平,为网络系统的资源收集提供新方法和新思路。

  goBETA的发展有赖于各方提供的合规数据集。我们期望大家一起为该平台添砖加瓦,共同推进网络系统领域的科学研究。

  

  图 1 数据管理服务架构

  

  图 2 一站式服务窗口

  

  图 3 不离场分析架构

附件下载