科研进展

大数据部在知识指导的科研项目分类领域取得进展

2021-09-02 13:20 | 放大 缩小 |

  为科研项目寻找到合理的领域方向,从而协助科学家与科研管理者进行研究方向管理是面临的典型问题。针对该问题,大数据部博士生肖濛的研究成果在国际电子电气工程师学会(IEEE)旗下会议International Conference on Data Mining 2021上发表,该会议长文接收率为9.9%。研究成果相关论文第一作者为大数据部博士生肖濛,导师为周园春研究员。

  随着科研项目申请迅速增长,学科划分不断细化,申请者及科研管理人员如何在具有层次结构的学科体系中选择项目申请所属的细分学科领域,是需要解决的重要问题。申请书数据是由标题、摘要、关键词、额外属性、正文等不同类别数据组成的复杂结构文本。并且,在申请书的分类过程中,专家知识可以在较为容易判断的大类学科中提供对模型的指导,并利用模型生成最为合适粒度的层级标签。

  该研究成果提出了一个Encoder-Decoder架构的层次多标签分类算法(Hierarchical Multi-label Classification)。编码器部分,通过利用多层次的Transformer组件实现对申请书中文本文档内的字词、文本文档间的互动关系进行建模,从而完成多类别文本的语义抽取。解码器部分,利用自注意力机制抽取专家知识以及已生成标签的特征,并结合编码器所抽取的语义信息,依照学科体系结构逐层生成标签序列。这一研究成果为科研项目分类场景提供了结合人工智能的解决方案,有着丰富的应用场景。(撰稿:肖濛)

  相关成果:Meng Xiao, Ziyue Qiao, Yanjie Fu, Yi Du*, Pengyang Wang, and Yuanchun Zhou. "Expert Knowledge-Guided Length-Variant Hierarchical Label Generation for Proposal Classification." 2021 IEEE International Conference on Data Mining (ICDM). IEEE, 2021.

图1.专家知识指导的层次多标签生成任务

图2. 专家知识指导的科研项目申请书变长层次多标签生成模型图

 

附件下载