「实在智能」(杭州实在智能科技有限公司)是一家专注于大规模复杂问题智能决策领域的人工智能科技公司。通过AI+RPA技术,公司开发了广泛应用在各行业的智能软件机器人,即“数字员工”。这些机器人帮助客户提升效率,降低成本,实现从劳动密集型向AI密集型的转变,从而推动生产模式与业务流程的创新升级。
2018年,来自纽约大学、华盛顿大学、DeepMind等机构的研究人员共同创建了一个多任务自然语言理解基准和分析平台——GLUE(General Language Understanding Evaluation)。GLUE包含九个英文数据集,已成为衡量模型语言理解能力的重要标准之一。然而,对于中文NLP领域来说,缺乏类似的成熟评价体系和交流平台。
在此背景下,「实在智能」的算法团队联合中文NLP行业的专家及热心人士共同发起了“Chinese GLUE”项目,简称CLUE。CLUE旨在整合和评估中文NLP领域的资源,帮助研究人员提高工作效率和产出。此外,CLUE还希望通过建立排行榜机制,为从业人员及爱好者提供一个衡量模型效果的高质量平台,推动行业中文语言理解能力的快速发展。
中文语言理解测评基准:CLUE提出了为中文NLP模型定制的测评基准,包括8个数据集和多个排行榜,促进了中文数据集的标准化,便于中文模型的测评和研究。
开源数据集:CLUE开源了多个数据集,例如细粒度命名实体识别数据集(CLUENER2020)、指代消解数据集(CLUEWSC2020)等,丰富了中文数据集资源。
中文预训练语料库:CLUE提供了超过100GB的中文预训练语料库,支持国内外100多家科研单位的研究工作,为中文NLP技术的发展提供了充足的动能。
预训练模型:CLUE提供了多种中文预训练模型,包括为国内外最受欢迎的通用NLP预训练模型transformers项目提供了11个中文模型,促进了预训练模型的研究。
NLPCC高性能小模型测评:CLUE与中国计算机学会的中文信息技术专委会合作,举办了NLPCC高性能小模型测评,推动了模型小型化研究和落地。
相比英文,中文NLP资源匮乏且缺乏有效的整合。许多从业人员及爱好者在推进相关工作时,经常遇到找不到官方数据集下载链接、数据集版本繁多、原始数据集需要繁琐预处理等问题,这些问题耗费了大量宝贵的科研时间,严重影响了工作效率。
为解决这些问题,「实在智能」的算法团队联合中文NLP行业的专家及热心人士共同发起了CLUE项目,旨在通过综合形式不同、难度各异的中文自然语言理解数据集,制作一个统一的测试平台,准确评价模型的自然语言理解能力。
CLUE整理了一系列性质各异的中文数据集,构建了在线提交评测平台及排行榜,帮助横向比较不同的中文NLP模型。CLUE还提供了多个基准模型和超过100GB的中文预训练语料库,并开发了Python工具包PyCLUE,方便快速测评代表性数据集和基准模型。
CLUE基于一系列中文数据集构建了包含五个不同方向的排行榜,涵盖了分类、小模型、阅读理解、命名实体识别等多个子领域。排行榜吸引了华为、阿里、腾讯等知名公司和中科院相关院所等高校的参与。
CLUE发布了多篇论文,系统地介绍了CLUE benchmark,包括数据集构造和测评、基线模型测评、人类测评和模型测评的分析,以及语言学专家构造的用于评估模型在中文现象上的诊断集效果。
CLUE项目得到了众多专家的支持,包括张俊林、徐国强、陈哲乾等资深顾问,以及徐亮、Danny Lan等创始会员。团队成员分别在NLP领域拥有丰富的研究和实践经验,为项目的成功推进提供了坚实的基础。
CLUE受到了多家媒体的关注和报道,包括机器之心、新智元、Paper Weekly等。这些报道强调了CLUE在中文NLP领域的重要贡献和影响力。
CLUE整理了多个数据集,包括蚂蚁金融语义相似度数据集、今日头条中文新闻分类数据集、长文本分类数据集、指代消歧数据集、论文关键词识别数据集、细粒度命名实体识别数据集、简体中文阅读理解数据集、成语阅读理解数据集、多选阅读理解数据集等。这些数据集涵盖多个领域和任务,为中文NLP研究提供了丰富的资源。
CLUE项目诚邀中文自然语言理解领域的专家学者、老师同学和参与者提供更多的中文自然语言理解数据集。推荐的数据集将有机会被纳入CLUE基准,为学界和业界的研究做出贡献。如果您有符合条件的数据集,欢迎将其推荐给CLUE团队。