成果产出

院信息化“科学大数据工程”项目及沿革

放大 缩小 |

  随着信息技术的发展,信息化手段逐步融入到了科研、教育、政务以及商业活动的各个方面。一方面,研究机构、教育机构、政府部门、商业机构以及个人对数字化数据和信息的依赖程度都越来越大,它们已成为科研、教育、政务以及商业活动的重要支撑;另一方面,数据资源的规模和复杂度都迅速增长。在科研领域,通过传感器、试验、计算机模拟等手段,现代科学数据的规模和复杂度呈指数级增长,同时,大量基于海量科学数据的科研应用得到蓬勃发展。科学数据已经愈发成为科学知识创新和技术集成创新的重要支撑条件和驱动力,被列入主要发达国家的科研信息化基础设施建设的重要内容。特别是近10年来,国际上发达国家和地区逐步建立了体系庞大的科学数据资源,开发了先进的科研支撑与应用系统,成为面向21世纪知识创新的信息化科研环境基础设施。 

    中国科学院作为中国自然科学的研究中心,在长期的科学研究实践中,通过观测、考察、试验、计算等多种途径产生和积累了大量具有重要科学价值和实用意义的科学数据和资料。早在上个世纪70年代,一些研究所就开始了利用数据库技术在自己的学科领域内建设数据库的尝试。到了80年代,利用数据库技术来保存和管理科学数据的研究所逐渐增多。为了促进更多的研究所以数据库技术更有效地管理和开发应用积累的科学数据,中国科学院于1982年将科学数据库建设列入了“七五”和后十年重大基本建设项目,并于1984年成立了“科学数据库工程筹备处”(设立在中国科学院计算中心),提出了“科学数据库及其信息系统工程”可行性研究报告。1986年,国家计委对“科学数据库及其信息系统”工程任务书进行了批复,科学数据库及其信息系统开始启动建设。1987年, 第一批19个专业库鉴定了建库项目协议书,正式启动科学数据资源建设。1988年,中国科学院批准“科学数据库及其应用系统”在对外活动中使用“中国科学院科学数据库”的名称。在“八五”、“九五”期间,科学数据库及其应用系统被列为中国科学院基础研究特别支持项目,“十五”期间,被列为中国科学院信息化建设重大项目,这为科学数据库的建设和发展带来了持续的保障,使得科学数据库取得了长足的发展。 

    在“十五”期间,科学数据库项目资助的建库单位已达到45个。到“十五”结束之时,科学数据库的专业子库数量达到了503个,总数据量达到16.6TB,其中可通过网络共享的数据量达到9.48TB。与“九五”末期总数量725GB相比,数据增量达15.9TB。数据库内容更加丰富,覆盖了物理、化学、天文与空间、材料、生物、地学、资源、环境、能源、海洋等众多学科领域,数据库种类包括数值库、事实库和多媒体库。科学数据库二十年的发展不仅为中国科学院乃至我国积累了一批宝贵的科学数据资源,成为中国科学院乃至我国科技创新的重要基础数据平台,而且凝聚和培养了一支既有专业学科背景又熟练掌握了信息技术的高水平人才队伍,成为中国科学院实现科研信息化的中间力量。 

    除数据资源建设外,“十五”期间,科学数据库项目开始重视标准规范的研制与实施工作,并加强了系统平台运行及支撑服务工作,它们共同构成科学数据库项目的整体。“十五”结束时,已陆续研制完成了“科学数据库元数据框架”(1.0版和2.0版)、“科学数据库核心元数据”(1.0版、1.1 版和2.0版)、“科学数据库数据共享办法”等通用规范以及大气科学数据元数据、生态研究数据元数据、植物图像元数据、……多个专用规范,直接应用科学数据库的建设;开发完成了通用元数据管理工具、科学数据库CA管理系统、通用数据访问工具、网格信息与元数据服务系统、基于网格服务的数据访问系统(DAS)等若干工具软件,以及完成了科学数据库门户站点的建设,对外提供稳定的运行服务;初步建成了科学数据库支撑服务体系,中国科学院计算机网络信息中心(以下简称“计算机网络信息中心”)作为项目的技术支撑单位,为建库单位提供有效的技术支持。支撑服务工作为标准规范的推广、系统平台软件的部署起到了积极的保障作用,协助解决了各个建库单位在科学数据库建库过程中的技术问题,从而保障了科学数据库项目的顺利实施。 

    “十一五”期间,中国科学院科学数据库得到了中国科学院信息化经费的继续支持。鉴于数据资源的迅速增长、对数据资源重要性认识的普及以及对数据资源长期、妥善保存日益增长的需求,在科学数据库数据资源建设与服务之外,专门设立了“数据资源中心建设”任务,面向中国科学院重要数据资产备份、长期保存的需求,建设存储能力6PB的海量数据存储与处理设施,为各研究所和广大科研人员提供多种形式的存储服务。科学数据库系统的建设、数据资源中心的建设以及基于数据资源和存储资源建立各种应用和提供各种服务,三者共同构成了中国科学院“十一五”信息化建设重大专项“数据应用环境建设与服务”项目的内容。 

    “数据应用环境建设与服务”项目经过2年多的筹划、总体方案设计和论证,于2008年通过立项审批,正式启动建设。“数据应用环境建设与服务”项目根据“统筹规划,整合集成,公开共享,服务科研”的原则,将面向全院需求统筹规划数据资源中心建设,重点实现科学数据的整合集成与公开共享,强化数据服务与应用,推进科学数据在科研活动中的全面应用。其目标是优化我院数据应用环境,形成科学数据资源网格与共建共享机制,提升科学数据应用水平,成为支撑我院乃至我国科技创新的重要信息化基础设施之一。 

    “十二五”期间,中国科学院面向科技创新和科研信息化需求,启动“科技数据资源整合与共享工程”建设,目标着眼于“海?云”思想,全面推动全院科技数据基础资源、海量存储与处理基础设施、数据集成与应用先进环境的建设与服务。计算机网络信息中心作为总承担单位,秉承“统筹规划,整合集成,公开共享,服务科研”原则,到2015年底科技数据资源整合与共享工程项目建成了52PB 存储容量的数据资源中心,系统地整合了58家单位的科学数据库,可共享数据量达655TB。初步实现了以基础设施云服务、科研数据云服务、数据应用云服务为主体的多层次、交叉式信息化服务体系;立足中国科学院,面向科技界,逐渐建设形成共享开放、服务创新的国家级科技数据中心。 

      当前正处在“十三五”建设期结束总结的关键时期。十三五科学大数据工程的总体目标是建设科学大数据管理与分析平台,完善科学大数据资源体系和公共服务云平台,发展大数据驱动科研创新的应用示范,显著提升我院科学大数据支撑服务水平,显著提升我院科学数据资源共享开放水平,显著提升我院科学大数据应用水平,奠基我院“十三五”规划之“数据与计算平台”,推动国家科学大数据中心建设。目前,已建成具有PB级数据管理能力的大数据管理平台,实现了10类以上主流大数据管理处理系统的一键式部署、配置管理和监控;建成数据分析软件云服务平台,已实现4类共性的数据挖掘算法与工具软件云服务:已构建2类共性的工具软件云服务(iJupyter、iWorkflow);已构建2类共性的数据挖掘算法库(基于R语言、基于python语言的等)。完成分布式数据汇聚与关联网络建设全部子系统基本建设任务;重点覆盖分布式数据资源传输汇聚子系统、数据资源管理与发布子系统,数据资源服务与关联化集成子系统(含服务监控统计)的研发、测试、部署。通过技术优化和系统扩展,已初步具备了支撑亿级数据对象关联管理能力。通过四个大数据驱动学科创新示范平台建设,探索了数据驱动科技创新和科学发现的新模式,以及示范性验证我院科学大数据管理、分析挖掘和应用等新技术的突破,促进新技术与学科领域的融合示范持续推动。同时,科学数据库持续积累与服务提升,建设了七个学科领域重点数据库及二十个特色数据库,采用“绩效评估、运行补贴”的模式,完善了科学数据资源体系建设。 

附件下载