近日,国家数据局组织开展高质量数据集典型案例征集工作。由中国科学院计算机网络信息中心、中国科学院动物研究所联合构建的“scCompass:亿级多物种单细胞转录组AI数据集”成功入选国家数据局“高质量数据集典型案例”。
典型案例发布现场
scCompass:亿级多物种单细胞转录组AI数据集” 成功入选国家数据局“高质量数据集典型案例”
scCompass针对传统生命科学数据库存在聚焦单一物种,标准不统一的问题,难以支持大模型的跨物种泛化训练的瓶颈,建设亿级多物种单细胞转录组AI数据集。scCompass严选自全球主流数据库,经统一质控、归一化与高精度细胞类型注释,最终集成来自人类、小鼠等13个关键物种超1.04亿个单细胞,为跨物种生命规律解析与大模型训练提供核心数据基座。scCompass自2025年5月公开发表以来,已服务36个国家/地区,并支撑首个知识与数据联合驱动的多物种生命基础大模型GeneCompass(Cell Research,2024,封面文章)以及细胞图基础模型CGCompass(National Science Review,2025),并支撑XCompass生命科学智能数字细胞基础大模型赋能细胞治疗,未来将持续动态更新该数据集。
相关地址和公开文章:
scCompass数据集服务平台:http://bdbe.cn/kun
scCompass数据集文章:https://advanced.onlinelibrary.wiley.com/doi/10.1002/advs.202500870
GeneCompass(scCompass126M支撑):https://www.nature.com/articles/s41422-024-01034-y
CGCompass:(scCompass50M支撑) ::https://academic.oup.com/nsr/advance-article/doi/10.1093/nsr/nwaf255/8172492
责任编辑:郎杨琴