工作动态

中心联合华中科大开发蛋白质相素化位点预测语言模型探索疾病治疗途径

2024-05-29 18:45 | 放大 缩小 |

    相素化(Sumoylation)是高度保守的类泛素化修饰,在基因表达和染色质重塑以及细胞动态过程等各种生物学过程中发挥着关键调控作用;而相素蛋白的功能失调则与神经退行性疾病、自身免疫性疾病和癌症等多种重要疾病密切相关。因此,鉴定相素化位点和相素蛋白互作模体对研究相素蛋白在细胞、生理和病理过程中的作用乃至探索疾病潜在治疗靶点等都具有非常重要的意义。

GPS-SUMO 2.0流程图

    为了实现更为精确的预测,我中心高性能计算部与华中科技大学薛宇团队开展合作,借助“东方”超算系统的强大异构加速能力,在基于Transformer算法对4万多个蛋白质上超过20万个位点数据进行“预训练+微调”的基础上,进一步利用与惩罚逻辑回归和深度神经网络学习了相素化位点邻近的理化性质,实现对“上下文+邻近”信息的精准学习,最终开发了截至目前准确性最高的蛋白质相素化位点预测语言模型GPS-SUMO 2.0。该工具同时具备利用35个公共资源对预测结果进行注释的能力,可以为实验筛选提供有效的帮助。

    相关研究结果以“GPS-SUMO 2.0: An updated online service for the prediction of SUMOylation sites and SUMO-interacting motifs”为题发表于国际知名学术期刊《Nucleic Acids Research(IF:14.9,JCR Q1/中国科学院二区TOP)。中心高性能计算部陆腾博士与华中科技大学生命学院薛宇教授、彭迪博士为共同通讯作者。该研究得到了国家重点研发计划、国家自然科学基金、中国科学院先导专项等项目的资助。

责任编辑:郎杨琴

附件下载