机器中文语言能力评测基准“智源指数”发布， AI大模型有了评测新基准

近日，北京智源人工智能研究院（以下简称“智源研究院”）在自然语言处理重大研究方向前沿技术开放日活动上发布了大模型评测的“命题”新方案 —— 智源指数（CUGE）。

“如果说自然语言处理是人工智能皇冠上的一颗明珠，建立科学的评价标准就需要寻找这颗明珠的本身，如果方向错了, 走的越远，偏离越多，很有可能就找不到。近十年里，自然语言处理突飞猛进，特别是超大规模预训练语言模型等技术的突破，英文语言能力评价基准发挥了至关重要的指引作用”，中国工程院院士、中国人工智能学会理事长、清华大学教授戴琼海院士表示，“如今，智源 NLP 学者共同建立机器中文语言能力评测基准智源指数，对于中文信息处理乃至我国人工智能发展都具有重要的里程碑意义”。

智源指数 CUGE：大模型评测“命题”新方案

清华大学计算机系副教授刘知远详细介绍了智源指数构建背后的思考和具体设计方案。

为什么推出智源指数 CUGE？

自然语言处理是通过图灵测试实现人工智能的关键，如何评判一台计算机的语言能力，需要有科学的评价体系。如今自然语言处理的任务众多，如何从这些任务中筛选出、建立起科学有效的评价体系非常重要。

特别是最近这三年，预训练模型能够通过自监督学习的方式，习得通用的语言能力，意味着人工智能和自然语言处理有了新的发展范式。面向具有通用语言能力的预训练模型，如何全面准确的对它进行评价，也需要有科学有效的评价体系。

基于这样的考虑，智源研究院自然语言处理（NLP）重大研究方向的学者团队推出了智源指数 CUGE（Chinese Language Enderstanding and Generation Evaluation）

两大特色

人工智能大模型时代，评测基准成为大模型发展的风向标。从扁平到全面系统，从简化到多重维度，智源指数 CUGE 旨在尝试为大模型评测设计一张全面评估综合能力的“新考卷”。

刘知远教授介绍，智源指数有两个特色，一是建立了全面、系统的评测体系；二是在这个体系的基础上建立了多层次、多维度的评测方案。

在基准框架上，不同于传统将常用数据集扁平组织的方式，智源指数根据人类语言考试大纲和当前 NLP 研究现状，以语言能力-任务-数据集的分层框架来选择和组织数据集，涵盖 7 种重要的语言能力、17 个主流 NLP 任务和 19 个代表性数据集，通过不同的能力、不同的任务以及不同的数据集，希望能全面均衡地对机器中文语言能力做评测。

在评分策略上，智源指数能更好展现模型不同维度的模型语言智能差异，依托层次性基准框架，提供不同层次的模型性能评分，包括在数据集、任务和语言能力等，系统性大大加强。

智源指数所覆盖的数据集达到了近 20 个，任务体系庞大。为了更好的让更多单位、机构在智源平台开展相关评测，智源 NLP 学者团队选择了各语言能力下更具有代表性的任务和数据集，构建了一个智源指数的精简榜，这样可以更方便、快捷的评估模型的能力。参与者既可以用综合榜也也可以用精简榜。

本次活动还同时发布了在线评测平台和公开排行榜，支持多种展示模式，包含综合榜、精简榜和单数据集榜，方便用户快速多角度了解模型和数据集特性及最新动态。

与 GLUE 等评估基准的区别

GLUE 是业内公认的最具权威的语言理解评测基准之一。2018 年以来，伴随着预训练大模型的爆发，GLUE、SuperGLUE 等成为现在语言大模型评测的主要基准。

刘知远教授表示，现在在中文的世界，面向中文的自然语言处理，缺少一个比较科学有效、全面的评测基准。国内很多公司关注 CUGE，但 CUGE 里包含的数据集，它所覆盖的能力以及数据集的质量，还有待于商榷。

智源 NLP 学者团队认为，需要从学术界的视角更科学有效的构建出一个评测体系，通过这种方式更好的指引中文预训练模型包括大模型发展的方向。

“我们希望把机器要掌握的语言能力，包括的纬度，从这个角度划分，确定每个能力对应的任务以及对应的数据集。这样在选择上更均衡一些，更有效的反映大模型在不同语言能力上的表现，以及进一步努力的方向”，刘知远教授说。

与其他评估基准相比，CUGE 的另一个特点是更加开放，希望并支持全国乃至全世界做中文自然语言数据的机构智源指数的平台上发布数据集，且能为其提供单数据集评测的支持，包括组织比赛等。希望结合行业的力量，共建智源指数。

在智源指数评测方案上，智源 NLP 学者团队参考了现有评测方案的优点和缺点，构建出了一个多层次的评测方案。即依托于智源指数，从能力-任务-数据集层次性的体系，向上逐层汇总模型相应得分，反映模型或者是机器语言能力在不同方面的效果。此外，在这个过程中会以一些代表性的基线模型的得分作为基准，去规划不同任务下评测指标的特点，确保不同的能力互相之间在加合时是均衡的，有助于建立起机器语言能力在不同维度的效果评估。

智源指数还会提供一个参与者模型的性能排行榜。这个排行榜在设计时，也在充分吸收了国内外相关评测基准的特点的基础上，构建出了以下特色设计：

首先，排行榜会基于能力、任务和数据集的体系给每一个数据集所对应的标签。例如，某个数据集隶属于哪一个语言能力，哪一个任务... 未来还会标注出难度、效果和信度等相关标签，从而方便参与者筛选出感兴趣的能力或角度去进行相应的评测。

第二，基于标签体系，支持参与者通过标签筛选的方式定制排行榜。同时，官方也会提供若干代表推荐套餐，如精简榜等，方便让参与者开展有针对性的能力评测。

第三，根据所研制的 7 种能力进行能力呈现的雷达图。这个雷达图能较直观的让参与者认识到不同的模型在不同能力上提升的效果，以及未来努力的方向。

第四，平台同时会支持单数据集的排行榜和评测，能更加有利于参与者追踪数据集研究的进展和动态。也就是说，任何一个单个数据集，也可以看到相关评测效果的榜单。

刘知远教授表示，基于单数据集的榜单能力，未来智源指数将定期吸纳最新优秀数据集。

强调诚信，控制刷榜问题

现在很多榜单被各大玩家不断“刷分”。但刷分、刷榜往往容易带来一些问题。例如谷歌近期在一篇文章中指出，现有的 Benchmark 不能做到对模型的公平性评估，更多的是在某些特定的任务上刷分数。

对此，刘知远教授认为，应当辩证地看待这个问题，面对过去，Benchmark 发挥了重要的作用，它指引这些模型发展到现在的状态，但再往下发展，Benchmark 里面包含的数据集，如果长时间一成不变，的确指引的作用会越来越小。因为越到发展后期，“内卷”往往越严重，例如，CLUE，现在已经刷到比人的水平还高出很多，这并不意味着机器比一定比人强，只是在有限的几个采样上，机器表达能力很强而已。

为缓解“刷分”问题，智源指数作了一些特别设计。

刘知远教授表示，CUGE 特别强调“未来持续改进性”。“CUGE 会不断更新，每年会更新新的数据集，避免大家把精力都放在某几个数据集上，把时间用偏在别的地方。这就跟大学里考试一样，虽说很多学生会为了期末考试做针对性复习，但平时的学习也很重要，主要精力应该放在对学业本身的掌握和改进上，这是智源指数想要做到的状态”。

此外，智源指数还特别强调评测过程中的诚信，要求所有的提交者必须填写 Honor Code 并展示，鼓励用户诚信，不人工干预数据预训练和测试过程，让模型真正反映学习算法和数据体现出来的威力。

刘知远教授表示，未来还将依托智源研究院、智源社区的力量，建立用户面向数据集和评测结果的反馈、讨论机制，通过交互交流构建起中文高质量数据集社区，推动中文自然语言处理的发展。

成立智源指数委员会

为了更好地支持智源指数未来的发展，在智源研究院的支持下，搭起了依托于现有的自然语言处理学者团队，还构建了一个智源指数工作委员会。

据悉，委员单位目前已经吸纳了国内在自然语言处理方面 10 余家优势单位，接近 20 个相关优势研究组，针对智源指数不断进行改进。

智源指数工作委员会未来的职责主要包括智源指数研发、构建、发布、吸引新的数据集、评测网站的维护和更新工作等。

智源委员会明年将持续完善智源指数。刘知远教授透露，预计会在明年的智源大会上发布新版智源指数平台。

智源 NLP 研究方向 10 余项成果落地

自然语言处理（NLP）是智源重大学术研究方向之一，由清华大学孙茂松教授任该方向首席科学家，北京语言大学杨尔弘教授任项目经理，学者包括李涓子、穗志方、刘洋、万小军、何晓冬，青年科学家包括刘知远教授、韩先培、孙栩、严睿、张家俊、赵鑫、杨植麟、李纪为等。

除“智源指数”外，本次开放日活动还进行了“自然语言处理评测中的问题与对策”“迈向通用连续型知识库”“文本复述生成”等研究成果的阶段性汇报，内容涵盖预训练模型、知识计算、人机对话、文本生成等 10 余项重点 NLP 科研问题。

落地应用方面，清华大学李涓子教授团队构建的“多模态北京旅游知识图谱”可以为路径规划和景点信息查询等功能提供数据支持，为游客进行旅游行程的规划。

京东集团副总裁、智源研究员何晓冬博士团队针对大规模与训练语言模型在长文本理解任务上的不足，通过从局部视角到全局视角的重复阅读方法（Read-over-Read，RoR），提出了一种基于多视角的机器阅读理解模型，显著地提高了针对长文本的阅读理解能力。

预训练大模型方面，为突破预训练语言模型（Pretrained Language Model, PLM）的高计算成本、高设备需求、难应用适配等瓶颈问题，清华大学副教授、智源青年科学家刘知远教授等提出了面向 PLM 的全流程高效计算框架，并基于此框架构建了以中文为核心的超大规模预训练语言模型 CPM-2，具有 1980 亿参数，覆盖多语言、兼顾语言理解和语言生成的功能，并研制了 BMInf、OpenPrompt 等配套开源工具。

多样性文本复述方面，北京大学王选计算机研究所研究员、智源研究员万小军团队的科研成果包括，构建了业界首个面向学术文献领域的文本复述数据集 ParaSCI，提出了多样化语句复述模型 DivGAN，并提出业界首个篇章复述模型-CoRPG。该系列研究分别为文本复述领域提供了基础数据资源、方法模型以及新的思路，从而推动文本复述技术的应用落地。

此外，赵鑫、韩先培、张家俊等 7 位青年科学家，也发布了关于预训练模型、多模态语言等方面的最新成果分享。

孙茂松教授在接受 InfoQ 等少数采访时表示，现在人工智能技术为下一代自然语言处理更好的应用打下了基础，例如语音识别、机器翻译、同传等技术，跟十年前相比已经不可同日而语。此外，NLP 对其他领域应用有很大的促进作用，如财经、金融、法律等等。

创作场景

机器中文语言能力评测基准“智源指数”发布， AI 大模型有了评测新基准