媒体报道

中科院周园春:科学大数据

2016-05-06 16:35 | 放大 缩小 |

  2016年5月6日,“2016北大CIO中国行--武汉站”活动在武汉华中科技大学隆重举行,作为2016年中国行活动的第四站,本次活动以教育科研行业的信息化与大数据应用为背景,活动主题为:数据共享,合作共赢。本次活动由中国新一代IT产业推进联盟主办,CIO时代网与希嘉教育承办,北大信息化与信息管理研究中心协办,专业云计算服务商UCloud冠名。与此同时本次活动还得到了希嘉教育、英维克、亿方云、全时等合作伙伴的支持。中科院网络中心科学大数据中心常务副主任周园春分享了题为《科学大数据》的主题演讲,以下为演讲实录:

  

 

  各位专家下午好!非常高兴能有机会跟大家交流关于科学大数据相关工作,实际上真正大数据起源也是从科研领域开始,大数据数字化,网络化,带动整个数据产生的革命性变化,这个起源是科研研究。整个大数据现在互联网的发展比较快,但是真正科学数据其实也能产生商业价值,这里面典型价格就是美国的加州气候公司,基于气象,天气、降雨,地质土壤调查等海量科学数据,面向保险企业和农民提供,它本身的价值除外还有很大的商业价值。

  科学“大”数据资源的特征与挑战 

  从挑战来说,科学大数据跟阿里和腾讯不一样,首先科研人员分散,科学家自己产生相应数据,不像阿里是封闭的,自有产生,而且是集中的,这些分散如何让大家分享这些数据。我们现在科学大数据里面更加明显就是它的格式多样,表格影像,还有视频文献,包括SQL数据等等这些数据,这些数据跟我们传统的是有很大不一样,因为它有更多类型的多样化或者异构化。同时这些数据是相互关联,比如说拿后面提到的例子,这个可能是由某个物体,某种基因而产生,这个是某个属性,某个物种,或者是跟环境相关,生态数据、基因数据都是关联,导致你研究某一类问题都要应用这个数据。所以这样带来问题是这些数据怎么关联,怎么整合,所以是共享发展的最大问题。这个是资源方面挑战,一个是相比其他数据资源,我们是分散,生产的数据,而且是分散持有的,同时是格式丰富,所以最关键数据在哪里,它不像淘宝的数据,科学数据在哪里都不知道。

  科学“大”数据技术的特征与挑战 

  技术数据,比如说大数据技术存储,计算存储分离到计算存储融合,到现在有一些固态硬盘,包括海量的文件系统构建这样一个存储发展趋势,这是一个从存储角度。从大数据管理角度,从传统的关于数据库受限于它的整个存储价值,所以它对海量的数据很难做这个,后面到其他的里面的模式,又保证它的原本模式,现在出来了新的整合型的,从大数据处理技术来说,那就是合久必分,分久必合,我们关系查询,数组,矩阵,图数据,到现在某一个应用或者是某一类应用可能都会用到U处理,P处理,所以这个计算要整合,这是一个合久必分,分久必合的确实。大数据分析来说可以看出来传统数据分析有假设驱动,数据统计模型,指数分布,结构化分析。后面机器学习,数据驱动,混合模型,覆盖长尾效应,后面是类脑计算,这是它的整个流程。从这个公共的基础发展来看,延伸到科学大数据管理,科学大数据有生物,物理,化学,单一的无法来覆盖,关联中怎么来找到跨领域数据围绕某个主题所有的相应核心的,这是一个面临的挑战。从处理的挑战来说一样,那么现在这么多的可能摇杆处理模型,所以这些模型本身已经存在,或者未来结合很紧,如何利用互联网产生新的处理模型,比如说HDFS来做一些联合,因为它产生的架构怎么跟科研领域做结合,这是一个很大问题。从应用特征,现在淘宝也好,阿里也好,它明确的需求在哪,我希望把这个推荐,或者把我们淘宝生态系统做得更优,提供增值服务更加丰富,更加个性化。

  科学“大”数据应用的特征与挑战 

  科研大数据应用在哪里,围绕这个数据在哪里,最后基于这个数据支持的科研发现又在哪里,所以这个可能跟我们传统大数据应用还有很大不一样,正因为这个可能要专注于在某个领域,如果是要基于大数据驱动的发现,在这里面要专,而且要精,而且这些领域不一定实现其他领域,是逐步适应的一个框架。我们从资源、技术、应用三个角度来探讨了在科学大数据跟传统的,或者跟现代互联网大数据相同点或者不同点。

  科学“大”数据相关实践与探索 

  后面是我们的探索,86年开始,刚才陈处已经讲了科研信息化历程,86年开始一直到现在,从2001年开始真正按照每个五年的计划,所以十五,十一五,十二五,到后面麻烦进行的十三五。十一五是科学数据网格来实现,十二五形成这样整体架构,整个支持大数据分析是分布式的,目前52PB和2千多台服务器来支撑。这是我们在一个基础环境,后面我们大概分成四个方面介绍。

  1、多源异构数据的管理、组织、集成和共享。 

  这些数据怎么找到,怎么共享,怎么集成。然后又同时能够实现数据整合,对外服务,实际上也碰到很多问题。一个是分地的数据库首先如何找到,找到发布在网上,发布完了才能找,然后发布之后这点有一个数据,那边有一个数据,发布之后怎么集成。武汉,天津,或者是北京,都有相应的科研机构产生的数据,那这些数据发布完了之后怎么去集成,怎么去做整合,最后他们之间可能相互关联,怎么提供统一的对外服务。

  比如拿生物来说,武汉有生物的相关数,他们之间可能有相互关联的属性,怎么实现单独的整合服务,所以我们形成了这样一个总体的方案。实际上从下面来说,它本身是一个自制的,就是物理部占课题组发布,发布完了之后才有服务发现,最后支持对外服务共享。最终每一层的技术体系有支持科研人员自动化发布管理,集成。刚才我们说如何对现有数据库进行发布,形成这样的一些数据。然后怎么集成,还有一个怎么去搜索,怎么去发现这些数据,这些数据的共享情况和服务情况用相应工具。最终我们在十二五的时候达到这样一个资源服务能力,部署423建库单位,完成60TB以上关系型,文件型数据的Web化发布,累计9.44亿条记录,591.7万个文件。这是第一个在整个分布式数据资源如何发现管理集成的技术体系和对外的。

  责编:pingxiaoli

  2. 科学数据标准规范体系 

  其实在这个过程中,因为每个学科是不一样的,而且它自己相关的采集的方式也不一样,所以如何实现集成管理,标准规范是最关键的。这个标准规范包括有指导型,有强制型的,我们通过配套软件固化到一个软件里面,实现对数据的质量的控制和数据相应的发布和管理。这里面也是列出了我们跟标准规范的相应对应情况,有一些是形成了国家的标准。这是在整个分布式资源的管理发布体系,后面讲到大数据的探索。第一个实际上这个问题很明显摆在这里,比如说深圳8个月的GPS数据,是960亿条记录,如果是北京或者上海更大,如果延伸长周期2年,3年,或者是5年,如果在560亿记录里面找到某一个时间段,某一个出租车的运行轨迹,这是一个很大问题。还有一个核心问题,除了量大问题,本身这个数据有可能,原来在前年可能采集三个属性,今年多拿一个属性,明年多一个属性,如何能实现对这些属性剩余调整,我们现在提出了自己的解决方案,而且做了优化和完善,在961条出租车数据里面,右边图可以看到,可以训练时间段,选择出租车的编号,1到2秒内能够把出租车运行轨迹通过可视化的方式展示出来,如何从海量数据里面找到你所需要的这个数据。

  这个数据有各种各样的,这个数据是相互关联。我这个物种为鸟,鸟还有它的测序,还有鸟的文章,这些信息是详关联,如何能找到所有鸟信息整合,这就是如何管理和发现,然后提出了这样一套方案,这套方案我们现在目前对它的关联关系一个快速管理,快速自动化关联建立,然后提供了16个数据服务接口,因为这一块的关联发现,必须要基于某个领域的需求,它很难说我建立一套关联适应所有的,它带有本体的概念,有领域的背景知识,切入之后实现了这样一套系统。我就研究鸟,我就通过调用你的来获取跟鸟相关的所有信息,形成一个系统,这是说我们微生物在整个关联发现里面从哪几个关键可以看出来相应的,相互的关系。如果一搜这个,就跟这个相关的文献也好,数据也好,都能显示在这里面体现。

  另外这是一个我们在整个找到它多源异构相关所有数据。第一个是快速找到,第二个是找到相关的多源异构,找到了可能还远远不够,大数据是预测,所以找到之后能不能找到它背后的规律,这个是很关键的问题。如果能找到给你也没有什么用,价值在哪里,所以价值就是后面要实现这些数据的分析和挖掘,提出一个预测的价值。

  在微生物所的应用 

  我们当时的课题是,背景是一个要预测某个三甲医院,7到10天内就诊病人的情况,这个时候其实也是从谷歌的那篇文章,谷歌预测流感是通过搜索,这边我们是以微博,微信的数据,加上它爆发实际的数据,加上交通的数据做这样一个分析。做这样分析之后,我们可以看出来这是交通的数据,这是微信社交网络,这是医院数据,这三个数据建模之后可以看到说,通过微博的数据,整个趋势差不多,微博数据比交通数据提前2到3天,交通数据会比医院提前2到3天,因为这个很好理解,如果是一个社区医院,服务的对象就是附近居民,但是北京三院是面向全国,武汉或者江西的病人,在微信、微博上有一个表达,这个表达有可能是表情,也可能是一段话,但是过几天还不舒服,可能就坐交通工具到北京去了,所以它本身有一个从常识来说有一个时间延续的过程,但是原来没有微信,微博,没有这个数据没法分析,由于社交网络发展导致有这个可能去做这个预测,这是我们最终做的一个预测,大概准确率70%多。

  第二个实际上我们做的这个病是狂犬病,狂犬病的传播,除了病本身,还有跟你的温度,跟你的经济条件,这个地方不通交通,它的公路就刚通,人员流动很少,这样给他疾病传播带来很大影响,所以你考虑疾病传播不仅要考虑病本身传播的特征,更关键是要跟其他的属性,比如说环境,社会经济发展和交通因素做综合分析,然后给出它一个风险的图。它大概一天,两天,三天之后会是怎样预测的结果,等等,所以这是我们风险预测的一个相应的数据。所以我说大概举两个例子,基于这个数据寻找规律的两个例子。最后这个展示给用户,所以可视化很关键。可视化我们有这样一个平台,这个平台通过简单配置可以实现数据可视化,可以看出来有时候是动态的,比如说H7N9,整个疾病的传播过程,能够显示的展示出来,同一个平台展示不同的应用,它的效果完全是不同平台来做的。同时这个也通过三维的方式展示它整个的一个大数据分析和预测的结果,我们可以看出来这个是可交互的,就是用户在这里面进行点击之后,这个根据用户的旋转和交互发生变化,这个是我们在大数据分析完了之后对它的结果,或者是对它分析过程的一个可视化的过程。最终把很多技术联合在一起,面对科研领域。比如说遥感领域,我们是达到PB级的数据,超过350TB遥感数据,支持遥感计算模型在线分析,提供2维、3维的展示。

  3. 大数据技术--大数据可视化技术 

  在大数据里面的探索,找到数据背后的规律,以及怎么把规律进行可视化和分析。这一块就是刚才提到的,就是数据共享。实际上现在数据共享还在,不开放的数据占开放数据的85%以上,实际上开放数据很少,开放数据很少,很多的问题,机制有各种问题。在概念上,我们在十二五做了很多探索。第一个探索原来在科学院是项目,现在是通过后评估,你先做,做完了之后我第二年评估你第一年的数据服务的效果,这是一种方式。但是在科研领域有一个很大的问题,即使这么做,科研人员不一定贡献数据,因科研关系到它的职称,文章的发表,就是像论文一样,原始创新成果,我们希望有一个期刊,让它数据发表,使它有一个论文引用能够作为他职称评定核心的价值和核心要素之一,对它数据共享也是很大的支撑之一,也是发表相应文章。我们做了一个期刊,现在有这么多的期刊发表的论文,其实这些论文基于数据发表,这些数据怎么办,这些期刊数据存在哪里,所以我们做了一个平台,希望把现在期刊关联数据放在这个地方,未来大家可以为这个数据做研究,我可以看你论文之后拿到这个数据能不能回应你的研究成果。

  4. 数据共享新模式探索 

  有这么多用户,这个用户在科研领域有很多的需求就是说,科学家希望处理这个数据,这个数据实际上没有太大的科研创新量,但是它必须要把这个加工成一个一级产品,基于这个产品再分析,前面的工作是必须做的,时间长了学生也不愿做,有这样平台,有数据,有学生,所以科研人员通过这个平台发布需求,就是我要提交的这个产品,然后这个平台里面有11万看到之后有人定标,这样实现需求供求关系共生,提升积极性。这也是猪八戒网最开放的,所以这个时候我是说,我们可能在整个的数据共享里面做了一些,在技术上或者平台上做了一些探索,因为机制,政策,法规可能是需要,但是关于这个可能还需要一些其他的东西来做一些让大家自愿去共享数据。

  这是我今天分享的内容,谢谢大家。

附件下载