工作动态

中心联合构建数据集入选国家数据局“高质量数据集典型案例”

2025-09-10 16:48 | 放大 缩小 |

近日,国家数据局组织开展高质量数据集典型案例征集工作。由中国科学院计算机网络信息中心、中国科学院动物研究所联合构建的“scCompass:亿级多物种单细胞转录组AI数据集”成功入选国家数据局“高质量数据集典型案例”。

典型案例发布现场

scCompass:亿级多物种单细胞转录组AI数据集” 成功入选国家数据局“高质量数据集典型案例”

scCompass针对传统生命科学数据库存在聚焦单一物种,标准不统一的问题,难以支持大模型的跨物种泛化训练的瓶颈,建设亿级多物种单细胞转录组AI数据集。scCompass严选自全球主流数据库,经统一质控、归一化与高精度细胞类型注释,最终集成来自人类、小鼠等13个关键物种超1.04亿个单细胞,为跨物种生命规律解析与大模型训练提供核心数据基座。scCompass20255月公开发表以来,已服务36个国家/地区,并支撑首个知识与数据联合驱动的多物种生命基础大模型GeneCompassCell Research2024,封面文章)以及细胞图基础模型CGCompassNational Science Review2025),并支撑XCompass生命科学智能数字细胞基础大模型赋能细胞治疗,未来将持续动态更新该数据集。

相关地址和公开文章:

scCompass数据集服务平台:http://bdbe.cn/kun

scCompass数据集文章:https://advanced.onlinelibrary.wiley.com/doi/10.1002/advs.202500870

GeneCompassscCompass126M支撑):https://www.nature.com/articles/s41422-024-01034-y

CGCompass(scCompass50M支撑) :https://academic.oup.com/nsr/advance-article/doi/10.1093/nsr/nwaf255/8172492

责任编辑:郎杨琴

附件下载