工作动态

我中心联合物理所共同发布材料合成大语言模型MatChat

2023-10-30 17:01 | 放大 缩小 |

材料合成路径预测是物质科学领域的重要课题。1990年诺贝尔化学奖授予了美国有机化学家Elias James Corey教授近年来大语言模型的崛起以及预训练-微调方法的应用,使得通用大语言模型的理解能力在各垂直领域显示出了较好的表现,但在材料领域缺乏相关的应用和研究。

近期,我中心人工智能部和中国科学院物理研究所SF10组合作,通过使用来自400多万篇论文中提取的35675个无机材料固相反应合成过程,数据处理13878条高可信度合成路径描述数据,对开源大语言模型LLaMA2-7B进行微调训练,成功研发了专注于无机材料合成路径预测任务的大语言模型——MatChathttp://chat.aicnic.cn/onchat),目前已经上线运行并开放使用。

该模型基本具备材料合成领域知识的生成和推理能力,经实验验证,在预测合成复杂的无机材料时,具备了超过ChatGPT的性能表现。受限于数据集的数量和质量,该研究成果仍然需要更多的语料使其满足不同材料设计的需求,但也展示出了大模型在材料领域具有强大的创新潜力和应用空间,为材料研究和创新带来了新启发和思路。

该项成果由中国科学院计算机网络信息中心王彦棡研究员中国科学院物理研究所孟胜研究员牵头,已发表在Chinese Physics B期刊论文共同第一作者为我中心人工智能部硕士研究生陈子逸、工程师万萌,通信作者为物理所刘淼研究员、中心王宗国副研究员。该工作得到中国科学院网信专项(CAS-WX2023SF-0101)应用示范项目的支持。

MatChat模型部署平台对话实例

相关成果:

Chen, Z.-Y., et al. (2023). "MatChat: A Large Language Model and Application Service Platform for Materials Science." Chinese Physics B.

论文链接:https://iopscience.iop.org/article/10.1088/1674-1056/ad04cb

平台:http://chat.aicnic.cn/onchat

代码:https://github.com/materialsCnicCas/CASMatChat

责任编辑:郎杨琴

附件下载