经济观察网 记者 田进 8月31日,在2019中国500强企业高峰论坛分论坛第三届信息安全产业发展论坛上,中国科学院计算机网络信息中心副主任谢高岗发表演讲表示,目前国家互联网发展迅速,在人、物体、信息的三维融合中,带来了数据量的激增,此时,如何存储数据并获得数据的价值成为了一项巨大的挑战。
根据IDC的预测,全球的数据量将从2018年的32个ZB,增至2025年的125个ZB,其中中国的数据增长量最为迅速,预计到2025年中国的数据量将会增加48个ZB,成为全球拥有最大数据的国家。
谢高岗表示,当前,数据存储主要面临安全性及高能耗两方面难题。以下为经济观察网整理的现场演讲文字精简。
数据的安全性
此前,北京的一个医院感染了勒索病毒,勒索病毒传到社保系统,接着从社保系统传到更多的医院,很长一段时间很难恢复数据,导致我们回到20年前医院挂号的流程,最后把数据解密打开,也花费了很多的钱财。
其次,对于大数据泄露,从企业到国家网络空间,都是非常严峻的问题。
2018年8月28日,华住旗下酒店(汉庭、禧玥、桔子、宜必思等10余个品牌)发生用户数据泄露,包括酒店开房记录,住客姓名、手机号、邮箱、身份证号、登录账号密码等约5亿条数据,被卖家打包出售。后来就黑客如何突破数据进行溯源分析发现,8月4日,黑客通过VPI服务器登陆进入,然后把黑客软件下载在服务器上,从而通过服务器把杀毒软件关闭,8月5号就开始传出一部分数据,接着通过数据得到更重要的服务器用户名称和密码,8月14日,整个核心数据库就被导出。
国家网络空间层面,比如说斯诺登曝出来的美国棱镜计划——美国和相关的科技公司合作,通过互联网实时监控所有的EMAIL 、volp、社交网络,同时监听互联网终端设备、软件等。
面对这些威胁,信息防护却是非常困难的,以前系统可以设置黑名单、白名单来允许哪些用户可以访问,哪些不可以访问。在现有的信息系统下,5G和4G的用户访问地点是不确定的,所有信息系统永远会存在不知道的漏洞,或者存在漏洞还没有修复的情况,因此也没有办法设置一些非常确定性的规则来应对非确定性的攻击。
高能耗
第二,数据量的激增会造成非常大的能耗。工信部2018年2月份做的一份统计显示,2017年国家有28.5万个数据中心,总耗电量超过1200亿千瓦时,占整个国家2%的用电量。预计到2020年用电量还将翻一倍,达到2962亿千瓦时。因此随着数据的增加,把能耗控制住也成为一个很大的问题。
存储的介质不同,对应的能耗也不一样。如光存储的优点是能耗非常低、存储的时间非常长,同时只能读取、病毒无法感染等,但缺点是吞吐量比较低,只有28兆/S读写的速度.
因此,我们在探讨说有无可能建立一个新的存储的方案,用大数据分析的方式来确定数据访问的模式,这样的数据访问模式能改造硬件系统、软件系统,把适合不同模式的数据放在不同的存储介质上,既保证性能,又降低能耗。
具体而言,即根据用户对数据访问的模式,将数据放在冷数据或热数据的位置。我们分析用户访问互联网视频的数据——不同视频的流行度与不同访问的途径。比如说有些用户是通过WIFI来或4G访问视频,其中10%的视频会产生90%的流量。因此如果能把这10%的视频存储在SSD上,把剩下的视频存储在光存储上,那么既可以保障存储的性能,又可以降低存储的能耗。这些,都需要人工智能不断的发展应用。