工作动态

大数据部支持微生物领域数据库及其分析系统建设取得新进展

2022-04-02 15:08 | 放大 缩小 |

  大数据技术与应用发展部与中国科学院微生物研究所等团队在微生物领域数据库及其分析系统建设取得新进展提出了一种利用语义网技术构建知识图谱的方法,可把冠状病毒相关的毒株、基因组、蛋白序列、蛋白结构、抗体、文献和专利等多源异构数据映射至资源描述框架(RDF),并构建基于语义网框架的冠状病毒知识图谱数据库gcCov。gcCov包含六千多万条语义三元组通过多源异构数据的语义整合,支持大规模数据驱动的知识发现具备对基因结构抗体等数据进行相关性分析的能力,有助于推动未来对基本病毒机制以及药物和疫苗设计的研究研究成果已发表在微生物学领域综合性期刊《mLife》上。 

  近几十年来,冠状病毒持续威胁着全球公共卫生安全因此有关新型冠状病毒的研究十分广泛相关出版物的数量增长迅。海量的科研数据使得将不同类型的研究整合到一个可搜索的语义互联的数据集,变成了一个巨大的挑战。目前,可用的冠状病毒数据库主要集中在基因组分析领域(例如CovDB1和ViPR2)或出版物领域(如LitCovid3)。而这些数据库没有建立基因组数据和其他类型信息(例如论文、专利和抗体)之间的相关性阻碍了进一步的知识发现。 

  语义网能够将分布式网络资源集成到共享本体的知识库中研究对象之间潜在关系是生物医学数据集成的一个有效解决方案为了分析海量数据之间的相互关系,这项研究设计了一套流水线方法将不同来源的数据整合到语义网框架中基于此方法该研究构建了gcCov数据库,使用关联开放数据(Link Open Data)提供有关冠状病毒的广泛信息和关联关系。gcCov是第一个也是唯一使用关联开放数据并基于语义框架发布的冠状病毒数据库。它有助于科学家检测链接数据之间的联系,从而发现隐藏在海量数据中的新知识。gcCov为当前的预防和治疗策略提供线索,是满足冠状病毒研究日益增长的信息需求的重要工具。(撰稿:胡川) 

  相关成果: 

  Shi W, Fan G, Shen Z, Hu C, Ma J, Zhou Y, Meng Z, et al. gcCov: Linked open data for global coronavirus studies. mLife. 2022;1–4.

数据处理流水线示意图

   

附件下载