媒体报道

《转》访中国科学院牛北方研究员 | 设计与实现高性能的数据解读学习模型、算法与软件,是逾越生命信息学“数据鸿沟”的主要手段

2019-07-04 10:06 | 放大 缩小 |

  当前,大数据与人工智能已渗透到各个科研与产业领域。大数据在生物医学领域被重新定义为“生物医学大数据”、“健康医疗大数据”以及分子生物学层面的“多组学大数据”等。然而,生物医学大数据的核心是解析、预测更多的数据, 从而可以处理与个体疾病表型相关的所有数据,并最终明确各因素的相关性和混杂性。因此,在当前大数据、人工智能和高性能计算逐渐融合的趋势下,设计与实现高性能的数据解读学习模型、算法与软件,是逾越生命信息学“数据鸿沟”的主要手段。

  针对癌症基因组学、宏基因组学,特别是基于下一代高通量测序的“精准医学”数据解读算法与软件技术,牛北方博士已在高性能计算数据解读方面取得了有一定影响力的学术及应用研究成果。近日,转化医学网有幸邀请到牛北方博士接受专访,以下为专访内容:

  铸就科研之路

  牛北方博士,您是如何踏入高性能计算与生物信息学的交叉研究领域中的?

  基于对代码编程的浓厚兴趣,我考取了中国科学院计算机网络信息中心的研究生并得以提前攻读计算机软件与理论博士学位。在攻读博士学位期间,我非常幸运的师从我国高性能计算领域的知名专家——迟学斌研究员。随着研究课题的开展,有幸参与的中国国家网格-生物信息学网格项目经历,给了我短暂师从中国生物信息学第一人——陈润生院士的机会,使我接触到了生物信息学这门令人着迷的学科,从此踏入了高性能计算与生物信息学的交叉研究领域。非常感谢两位恩师的教诲与指导,让我受益终身。

  2012年,结束美国加州大学圣迭戈博士后研究后,牛北方博士受邀应聘于美国圣路易斯华盛顿大学医学院麦道基因组研究所,参与美国癌症基因组图谱计划(TCGA),请您简单介绍一下您在TCGA项目中取得的一些成果。

  在美国TCGA项目中,我获得了与基因组医学领域国际著名科学家合作的机会,参与了美国TCGA及国际癌症基因组联盟(ICGC)多个癌种的大规模癌症基因组数据分析项目。这期间,带领生物信息团队,率先分析了基于高通量测序数据的癌变基因组多子克隆结构问题,设计并研发了癌症显著突变基因识别算法及其软件系统MuSiC2。该方法被成功应用于12种3000多例癌症患者的高通量测序数据,成功识别出127个显著突变癌症基因并大多被湿实验验证(Nature, 2013)。MuSiC2软件也被成功应用于美国TCGA胃癌分子特征分析(Nature, 2014)和美国 TCGA 泛癌基因组分子分型的工作(Cell, 2014),并获得 2015 年美国十大临床研究成就奖。随后,我们和美国布朗大学的Ben J. Raphael教授合作,将癌症罕见体细胞突变映射到二维网络模型,研发了HotNet2软件系统(Nature Genetics, 2015);后又基于蛋白质三维空间结构数据,成功研发了癌突变位点和药物位点空间整合分析的软件系统HotSpot3D(Nature Genetics, 2016)。美国国家癌症研究院(NCI)癌症电镜中心主任Jacqueline Milne教授对这项工作进行了特别评述,他评价道:“HotSpot3D可以快速筛选癌症驱动突变,并指导FDA已经批准药物的重定位”。上述系列研究成果也得到知名公共媒体的广泛关注,美国主流媒体华尔街日报、布隆伯格新闻评论和科学日报等都以不同篇幅进行过报道。

  作为高性能计算技术与生物信息学交叉研究领域的专家,您认为高性能计算技术对于精准肿瘤学(Precision Oncology)研究的价值主要体现在哪里?在筹建面向数据和计算整合的癌症组学数据挖掘体系过程中,有哪些技术难题有待突破?

  在精准肿瘤学领域,人们从肿瘤基因组测序数据获得的有价值信息仍然十分有限,试图发现的肿瘤驱动基因突变不到基因组变异的2%,因此需要获得更多有价值的信息。而高性能计算技术可以解决超大规模数据的快速、准确解读带来的新挑战,为未来的肿瘤发病机制研究和临床应用奠定基础,将产生巨大的产业价值和新的产业链。作为生物信息学分支的肿瘤基因组信息学,在精准肿瘤学研究中具有核心的价值和地位。一个合理的预测是,生物信息学在精准医疗中的应用或将引爆生命科学研究的新变革。

  在筹建面向数据和计算整合的癌症组学数据挖掘体系过程中,仍然存在许多技术壁垒。首先,生物数据尤其是多组学数据,其规模大、种类多、样本量小,如何在原有统计学基础上研究数据、高效的存储大规模数据、提高数据的处理速度等都是目前研究的热点和问题的关键,开发及优化针对新测序技术数据挖掘的大规模数据处理软件非常有必要。其次,目前尚缺乏针对中国特有的癌症样本二级数据库。我国亟需构建面向中国癌症样本的基因组、转录组、蛋白质组、临床医疗数据等在内的二级数据库。最后,目前多组学数据处理流程繁杂且不统一,如何简化分析流程、提高分析速度、建立通用的数据解析流程也是亟待解决的问题。因此,急需研发高性能数据分析的工作流软件系统,以简化计算流程,助力国家精准医学计划产生的大规模数据分析任务。

  从科研者到创业者

  牛北方博士,您开发了MSIsensor软件系统,并被成功应用于FDA首个批准的肿瘤多基因检测大Panel——MSK-IMPACT中,您如何看待中国肿瘤大Panel?

  我和同事首次提出并成功解决了基于 NGS 的基因组微卫星不稳定性的检测问题,带领团队研发了MSI状态探测软件系统MSIsensor(Bioinformatics, 2014),其性能优于当前临床病理检测方法,为微卫星位点识别提供了先进的计算手段。2017年11月,美国FDA批准了美国纪念斯隆凯特琳癌症中心(MSKCC)的基于二代测序技术的多基因检测分析产品MSK-IMPACT?,这是FDA首次并非针对特定基因的特定位点,而是基于整个Panel及相应的技术平台进行审批,是精准医学发展道路上的一次重要跨越。这也是美国FDA批准的首款不依据肿瘤来源,而是依据生物标志物进行区分的检测产品。另外,FDA对MSK-IMPACT?授权的另外一个重要应用便是MSI检测,其MSI检测就是使用我研发的软件系统MSIsensor。经过多年的精心维护与功能改进,MSIsensor检测系统已成为当前该领域的核心方法,在国际上被多家科研单位、医疗机构和公司广泛使用。

  目前而言,美国FDA于2017、2018年连续批准了MSK和Foundation Medicine两款大Panel检测产品。令人欣慰的是,国内部分企业已经走在开发肿瘤大Panel产品的前沿。个人认为,国内肿瘤大Panel的产品应该踏实,稳步推进,彻底理解并借鉴FDA批准的两款大Panel产品的设计思路。当然,作为一名科技工作者,我将与其它科研人员一起,践行“健康中国”理念,为实现大Panel在我国行业规范标准的建立贡献自己的力量。

  您在美国进修了博士后,后又在美国圣路易斯华盛顿大学做研究员,是何种情怀促使您选择回国发展?

  2015年初,美国启动精准医疗计划,随后的3月中国科技部举办首届“国家精准医疗战略专家会议”,启动中国版“精准医疗计划”。精准医疗计划离不开大数据、基因检测技术、高性能计算技术……中国亟需各种复合型高科技人才。与此同时,数据安全日益重要,能否守住中国人基因数据,能否培养、引回国际一流的生物信息分析人才,或许将成为我国精准医疗计划成功的关键。另外,由于地域差异,美国肿瘤基因图谱并不能完全适用于中国人群,中国亟需构建中国肿瘤基因图谱计划。

  祖国日益强大,国家是科研人员最强大的后盾。众所周知,多年前,我国的高性能计算并行机,连核心CPU都是国外生产的。现如今,我们已经拥有了完全自主生产的超级计算机,能够最大程度的保障科技成果落地及转化。相信我国的高性能计算、大数据技术能让科学研究走得更远,不仅局限在医疗行业,而且能够在国民经济的各个行业中都将发挥更大的作用。

  另外,中国是人口大国,也是癌症大国,对于一名科研工作者而言,利用自己的微薄力量为中国肿瘤事业做贡献,某种层面上也是为全球科研在做贡献。如果不能将自身科研成果应用于人类健康,似乎自身的科研价值就没有完全体现。因此,我选择回国,投身到国家生物信息学与高性能计算技术交叉领域的研究中,也是情理之中。

  2018年,您受邀加盟求臻医学(北京)有限公司(以下简称“求臻医学”)担任首席信息官一职,请您分享下您的心路历程。

  选择加入求臻医学,不仅仅是由于某些理念“不谋而合”,研究方向完全匹配,更多是因为我在求臻医学看到了“中国肿瘤大Panel的希望”。随着自己对肿瘤认识的逐步加深,我开始重新理解精准医疗领域。目前,肿瘤精准医疗领域的一大痛点在于数据分析缺乏标准化。为早日实现肿瘤基因组大数据的标准化整合、共享和高效利用,推动科学研究和生物医药产业的协同发展。2018年,我受邀加入求臻医学,参与中国肿瘤图谱计划项目,推动泛肿瘤大Panel基因检测的标准化。

  探索科技创新 致力医学求臻

  作为求臻医学首席信息官,您认为求臻医学在精准肿瘤学领域有哪些独特优势?

  团队优势

  求臻医学联合创始人、首席科学家李蔚教授来自美国三大基因组测序中心之一的贝勒医学院,李蔚教授和我都参与过TCGA 泛癌种的分子分型工作,有着多年的肿瘤基因组数据分析工作和项目经验,为求臻医学精准肿瘤学检测产品的研发提供了一定的人才优势。求臻医学创立伊始,便汇聚高科技行业团队,以强有力的高素质人才支撑加速锻造科技创新凝聚力,其企业运营管理经验、技术、人才储备,在国内的基因检测产业界颇具特色。

  技术优势

  求臻医学与国内外科研团队合作成功研发了一系列拥有自主知识产权的分析软件,例如用于RNA-seq数据分析的RseQC,用于甲基化分析的BSMAP、MOABS、Canyons,用于MSI检测的MSIsensor、ChosenDeepMSI等,尤其在肿瘤多基因检测大Panel方面独具优势。

  求臻医学的肿瘤大Panel产品——ChosenOne599?充分学习了FDA批准的两款产品的研发思路,是基于NGS平台、IHC及ddPCR平台的最新一代检测产品,涉及肿瘤用药、预后及发生发展相关的599个基因。近日,此产品获得了中关村及北京市新技术新产品(服务)的认证,这是政府层面对求臻医学产品和技术的认可。求臻医学的ChosenOne599?大Panel在信息学分析具有如下新特点:

  

  • 变异检测方面:ChosenOne599?大Panel变异检测结合TCGA标准流程和中国人变异基线特点定制,对每一个变异位点采用多个公共检测软件,并结合自主知识产权的变异检测软件ChosenBassovac进行打分,后续采用机器学习模型结合TCGA大规模癌突变数据对变异位点的显著性进行智能化评估,不同于常用的VAF及人群频率等阈值过滤策略,使变异位点检测更准确的同时,得到位点的显著性评估;
  • TMB指标方面:除报告常规TMB值之外,基于自主知识产权的ChosenHotSpot算法,提出了一个三维立体的TMB显著性指标:3dTMB,该指标可以综合评估已知功能位点和未知功能位点、靶向药物等之间的相互关系及显著性,以及发现更多的靶向治疗药物尝试点,提高癌症患者的生存率;
  • MSI检测方面:MSI检测采用机器学习模型新算法,测试性能显示新算法优于原来的MSIsensor,检测速度从原来分析一个全外显子组样本耗时30分钟,降低至100秒,大大提高了MSI的检测效率,可以推广到更多的定制化基因检测Panel、ctDNA及全外显子组、全基因组数据,具有更加广阔的临床应用前景。

 

  另外,在大数据处理和流程封装方面,求臻医学采用了目前具有优势的Docker技术搭建Spark服务器集群,为医院等下游客户提供一站式的生物信息学解决方案,从而推动生物信息标准化流程的建立。

  求臻医学基于全新的生物信息学分析和遗传咨询解读的标准化流程建立规范化肿瘤图谱,同时基于ChosenOne599?大Panel产品建设中国人群肿瘤数据库,探索开发出一套国人肿瘤数据共享及高效利用的管理机制,为我国科技创新和经济社会发展提供物质保障和服务支撑。

  开放共赢的大格局

  求臻医学的创始人团队具有开放共赢、致力于共同谱写中国精准医学新篇章的思想和开放大格局。求臻医学不仅在核心检测产品ChosenOne599?大Panel的信息学分析上具有独特、新颖的思路,同时还在研发过程中产出一批可以为整个国内基因检测行业开放使用的信息分析系统,求臻医学在不断突破技术的“天花板”。

  近来,求臻医学推出了新的基于机器学习模型的MSI智能检测算法ChosenDeepMSI。基于此新的智能算法,求臻医学可以为任何检测公司、任意大小的基因检测Panel提供其独有的MSI检测训练模型服务。换而言之,我们可以为任何基因个数的检测Panel定制MSI检测模型。另外,ChosenDeepMSI近期也授权美国国家癌症研究院的GDC项目组进行系统全面的测试。这些独特的技术优势,求臻医学都将无偿的提供给国家各种类型的生物医学项目,为国家精准肿瘤学数据分析贡献自己的力量。

  最后,牛北方博士表示,他作为主要作者研发的几个软件系统在癌症基因检测领域应用广泛,将继续研发能够解决精准肿瘤学临床实际问题的检测信息系统及计算支撑体系,他将凭借自己在高性能计算领域内多年的肿瘤基因组数据分析工作和项目经验,追求求臻出品,必然是精品的思路,帮助求臻医学建立世界一流的研发团队,实现关键核心技术自主可控。

  

  牛北方博士个人简介

  牛北方,博士,中科院计算机网络信息中心研究员,博士生导师,中国科学院大学岗位教授,求臻医学首席信息官。主要从事高性能计算与生物信息学研究,特别是基于下一代高通量测序(NGS)的肿瘤“精准医学”数据处理算法与软件技术。迄今发表同行评审论文30余篇,包括Nature、Nature Genetics等期刊,总被引用近10000次,ESI高被引(1%)论文10篇,其中多项研究成果被媒体报道。是MSIsensor、MuSiC/MuSiC2、HotSpot3D、CD-HIT系列等流行癌症基因检测软件的主要作者。其中的MSIsensor检测系统已作为该领域的核心方法,在国际上被多家科研单位、医疗机构和公司广泛使用,并被成功应用于FDA批准的首个基于NGS的癌症多基因检测试剂盒(MSK-IMPACT)。主持多项国家自然科学基金面上项目、国家重点研发计划课题、中科院信息化专项课题等。目前担任中国运筹学会计算生物学分会理事,中国计算机学会高性能计算专委与生物信息学专委委员等职,曾为美国癌症基因组图谱计划(TCGA)多个癌种基因组数据分析工作组成员,国际癌症基因组联盟(ICGC)泛癌种基因组数据分析工作组(PCAWG)成员。

附件下载