全球首个《AI对话系统分级定义》发布，当前AI对话系统水平最高已发展至L2~L3之间_AI&大模型_刘燕

【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情 



 写点什么

全球首个《AI对话系统分级定义》发布，当前AI对话系统水平最高已发展至L2~L3之间

InfoQ 获悉，6 月 28 日，由清华大学计算机教授、智能技术与系统实验室副主任黄民烈发起，联合了十余家科研机构、二十多位知名学者共同制定的全球首个《AI 对话系统分级定义》（以下简称《分级定义》）正式发布。

《分级定义》将推动 AI 对话系统在虚拟个人助理、智能家居、智能汽车（车载语音）、情感陪护和心理健康等领域的应用有据可依，并将加速下一代 AI 对话系统的研发与应用。

《AI 对话系统分级定义》

AI 对话系统已演进到第三代：以大数据和大模型为显著特征

起源于图灵测试的 AI 对话系统，是人工智能领域最重要的研究方向之一。

如果说自然语言处理是人工智能“皇冠上的明珠”，那么 AI 对话系统则是自然语言处理中最难、最核心的任务之一，是“明珠中最亮的那颗”。

因此，AI 对话系统被认为是衡量人工智能发展水平的重要因素，代表了人工智能的发展方向。

在工业应用领域，AI 对话系统呈现出“爆炸式”增长的态势，如以“小度”“小爱”为代表的智能助理，广泛应用于个人助理、智能家居、智能汽车中，还有以谷歌对话机器人 Meena、Facebook 聊天机器人 Blender 为代表的开放域闲聊产品中，与大众日常生活紧密相关。

黄民烈认为，近年来，随着深度学习技术的不断发展，AI 对话系统已经从基于规则的第一代和以传统机器学习为核心的第二代，发展到以大数据和大模型为显著特征的第三代，对话能力产生了革命性变化，在开放话题上展现了惊人的对话能力，对进一步推动人工智能产业发展、实现智能化具有巨大意义和价值。

AI 对话系统发展历程

首个《分级定义》发布，让 AI 对话系统的能力水平可衡量

然而，作为前沿技术，当前 AI 对话系统标准缺失，造成其在应用中呈现出水平参差不齐、评价体系不一的现状，导致了业界因认知不统一而对人工智能交互水平出现误解，也引起了社会上关于意识、伦理、道德等方面的广泛讨论。

因此，为了更好地评估 AI 对话系统的能力水平，清华大学智能技术与系统实验室副主任黄民烈联合学界和业界科研机构制定了全球首个《AI 对话系统分级定义》，旨在衡量 AI 对话系统的能力水平，从而促进 AI 对话系统的进一步研究，同时为工业界应用提供参考。

以下是参与本次《分级定义》的研究机构和研究者 List（以姓氏拼音排序）。可以看到，基本上国内对话系统的主要玩家都参与到了这次分级定义的制定中。

科大讯飞 AI 研究院副院长陈志刚，京东集团副总裁、IEEE Fellow 何晓冬，清华大学长聘副教授黄民烈，阿里达摩院总监、资深算法专家李永彬，华为诺亚方舟语音语义首席科学家、ACL Fellow 刘群，华为诺亚方舟实验室高级研究员糜飞，百度主任架构师牛正雨，腾讯 AI Lab 总监史树明，中国人民大学副教授宋睿华，阿里达摩院总监孙健，小米技术委员会主席、AI 实验室主任王斌，百度技术委员会主席吴华，美团自然语言处理中心总监武威，中国人民大学副教授严睿，中国科学院深圳先进技术研究院副研究员杨敏，OPPO 高级技术总监杨振宇，哥伦比亚大学助理教授俞舟，北京师范大学新闻传播学院院长张洪忠，哈尔滨工业大学副教授张伟男，北京聆心智能总监郑银河，三星电子中国研究院语言技术部技术总监朱璇。

黄民烈教授详细介绍《分级定义》

发布会现场，黄民烈教授向 InfoQ 等媒体详细介绍了《分级定义》的制定情况。

他表示，考虑到 AI 对话系统任务繁多、评价维度多样、技术路线丰富，撰写小组在制定《分级定义》时仅关注完全由机器主导的对话系统，人机混合的对话系统不在考虑范围内。同时，为了在实际应用中发挥价值，《分级定义》的制定是从用户可感知，以及可观察、可测量、可度量的角度出发，不考虑系统的具体技术实现方式，也不区分助理类任务、闲聊、知识对话等，均以“场景”进行表述。

在上述原则之下，《分级定义》从自动对话能力、对话质量高低、单一/多个场景、跨场景的上下文依赖和自然切换能力、拟人化程度、主动和持续学习能力、多模态感知与表达能力等角度出发，将 AI 对话系统划分为从 L0~L5 的六个等级，等级越高，AI 对话系统水平越高。

当前，AI 对话系统水平最高已发展至 L2~L3 之间

多位参加制定的专家学者向 InfoQ 表示，在此《分级定义》的标准之下，当前，全球 AI 对话系统水平最高已发展至 L2~L3 之间，常见的如“小爱同学”等 AI 智能助理。

按照 L4 的定义，“在 L3 的基础上，在新场景上具有高质量对话能力，在多轮交互中拟人化（指人设、人格、情感、观点等维度的一致性）程度较高”。

现阶段，AI 对话系统在从 L3 向 L4 迈进的过程中，还面临诸多挑战。

华为诺亚方舟语音语义首席科学家、ACL Fellow 刘群认为，保持人设的前后一致性就是一大难点，例如做到在对话过程中没有逻辑错误，在上下文的对话中不会自相矛盾，对话内容需要符合常识，还要跟人设保持一致，有些不一致的对话情形非常隐晦不易觉察...这些实现起来都相当困难。目前，即便是最好的 AI 对话系统，还无法完美符合 L4 的标准。

值得注意的是，L4 级别强调拟人化的能力，但这并不意味着，在 L4 级别之前的 AI 对话系统就可以不用考虑拟人化，即便是 L1 级别也可以考虑实现简单的拟人化。但从分级角度看，拟人化的能力放在 L4 级别更合适，因为拟人化实现起来难度很高。而且，要在已经达到了 L3 的能力的基础上，在先具备多场景的能力后才能衡量拟人化。

可以看到，目前已经有很多厂商在做一些拟人化的探索，例如给 AI 对话产品赋予情感分析、情感疏导、人设等能力，使之表现出一定的拟人化程度，这类简单的拟人化特征相对容易实现。但这并不表明，其达到了 L4 的水平。L4 并不是简单的拟人化，还强调各个维度的一致性，保持一致性具有非常高的要求，此外，相较单轮次对话，在多轮对话中实现拟人特征的一致性富有挑战。即便现有的一些对话系统在做拟人化方面的尝试，但还不足以达到一致性的高度。

L5 级别，代表着 AI 对话系统的最高水平。

从 L4 到 L5 的演进，也需要攻克诸多技术难点。

小米集团技术委员会主席、AI 实验室主任王斌认为，L5 级别所要求的更高的拟人化程度，需要做更多显性、隐性内容的统一理解和一致表达，这个过程挑战重重，对于对话内容及背后的知识都有非常高的理解要求。此外，在开放场景里，L5 级别的 AI 对话系统要主动学习、持续学习，要求机器有主动性，并不断演化成长。对人而言，随着人的成长，其知识、观点、能力等多个维度都在演变，对话系统也要考虑这种演变。对话系统需要通过不断的交互学到新的东西，这样才能不断迭代演化，能力上持续进步。从目前的技术和发展趋势来看，要做到在整个迭代中学到新东西，这是 AI 追求的最终目标，本身就是巨大的挑战。此外，多模态的感知和表达并不如想象中容易。真实的系统中，不同模态间的关系非常复杂，如何从多模态中互相促进也是一个难点。

黄民烈表示，记忆的能力，联想和推理的能力、自学习的能力等都是从 L4 到 L5 实现过程中，需要具备的技术和能力。在 L5 级别，多模态的目标，是让对话系统真正做到“类人”。尤其在未来，如果适用到元宇宙里，表情的识别、语音的理解、从语音中感受情绪等能力就变得非常重要，高表现力的语音合成、动作和表情细粒度的表达等都需要一一攻克。

刘群补充道，记忆能力并不是简单的事情，对话系统不仅要记住人说过的事情，还要对这些记忆进行处理，是需要长期记忆还是短期记忆，是该记忆还是不该记忆，这些都需要很好的建模才能做到。

专家学者：《分级定义》具有多重意义

刘群向 InfoQ 等媒体表示，本次《分级定义》的制定在行业内是一次大胆的尝试，能够引发 AI 对话系统研究领域的思考和讨论，帮助研究人员更好地发现系统的问题并明确研究方向。

王斌表示，在从事 AI 智能助理的研发过程中，时常感到难以评判所开发 AI 对话系统的水平，因此《分级定义》的制定非常必要。《分级定义》发布后，AI 对话系统能力水平的衡量将有据可依。《分级定义》面向大众，面向用户，让用户能够更多地关注、更清晰地理解 AI 对话系统及其当前的能力水平；对行业来说，行业有了统一的评估规范，有助于企业明确研发方向。随着《分级定义》发布，以及后续相关评测规范的制定，能够促进行业更规范地发展。

北京师范大学新闻传播学院院长张洪忠一直非常关注社交机器人所带来的伦理挑战，他认为《分级定义》的发布有助于社会对 AI 对话系统的发展阶段形成更清晰地认知，对于思考、讨论、制定法律规范形成有力参考，以规避 AI 对话可能产生的伦理问题。

AI 对话系统最高级别的应用为复杂情感任务，该《分级定义》的发布将促进 AI 对话系统在情感任务中体现更高水平，从而促进人工智能未来在情感陪伴、心理健康、虚拟人、元宇宙等方面的应用，大大释放人力和物力成本，促进前沿科技走进大众日常生活。

此次《分级定义》的发布，是 AI 对话系统走向规范化、系统化发展的第一步。接下来，黄民烈教授将联合该领域相关研究机构及研究者开展白皮书的编纂，聚焦 AI 对话系统的发展历程，详细阐释《分级定义》的制定目的和标准。

公众号推荐：

跳进 AI 的奇妙世界，一起探索未来工作的新风貌！想要深入了解 AI 如何成为产业创新的新引擎？好奇哪些城市正成为 AI 人才的新磁场？《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造，为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者，还是对生成式 AI 充满好奇的新手，这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号，回复「开发者洞察」领取。

发布

暂无评论

创作场景

全球首个《AI 对话系统分级定义》发布，当前 AI 对话系统水平最高已发展至 L2~L3 之间

AI 对话系统已演进到第三代：以大数据和大模型为显著特征

首个《分级定义》发布，让 AI 对话系统的能力水平可衡量

当前，AI 对话系统水平最高已发展至 L2~L3 之间

专家学者：《分级定义》具有多重意义

公众号推荐：

评论

美国站群多IP服务器的优势与特点，助你在搜索引擎中领先

快速上手App自动化测试利器，Toast原理解析及操作实例

Dropshare 5 for mac(专业的网络文件共享工具)v5.49激活版

华为云GeminiDB新版本发布：全面支持Redis 6.2

抖音直播间新热点：假人/数字人直播的真相揭秘！

概念回顾：物联网 (IoT)

AI虚拟数字人赋能企业打造服务型数字人！

Java & Go泛型对比

究竟什么样的数据库，才能承接RTA广告这个技术活！

HarmonyOS卡片刷新服务，信息实时更新一目了然

2024-03-20：用go语言，自 01背包问世之后，小 A 对此深感兴趣。一天，小 A 去远游，却发现他的背包不同于 01 背包，他的物品大致可分为 k 组。每组中的物品只能选择1件，现在他想

【论文速读】| 增强静态分析以实现实用漏洞检测：一种集成大语言模型的方法

【堡垒机】企业购买堡垒机的七大需求你知道吗？

MWeb Pro for mac(好用的博客生成编辑器)v4.5.8中文激活版

PullTube for Mac(在线视频下载器)v1.8.5.29中文激活版

Programming Abstractions in C阅读笔记：p327-p330

Infuse Pro for Mac(多媒体播放器)v7.7.2免激活版

1秒内审核3万条SQL：如何用规范识别与解决数据库风险？

一分钟了解深度算法

2024内蒙古等保备案办理流程指引

Java HashSet 深入解析

时下最火的App自动化利器：Toast原理解析及操作实例，快速上手无障碍！

Prompt工程师压箱底绝活——Prompt的基本组成部分、格式化输出与应用构建

App自动化利器：Toast原理解析及操作实例，快速上手无障碍！

九连冠！禅道再获2023年「常用测试管理工具」第一名

iLogtail 2.0 来了；通义灵码下载量破百万丨阿里云云原生 2 月产品月报

跨平台整合：如何在不同系统中使用淘宝商品详情API

ai绘画免费图生图！一键生成免费可商用图片。

TunesKit Audio Capture for Mac(音频录制和音乐嗅探软件)v3.1.0激活版

OpenTiny Vue 3.14.0 正式发布，增加了 MindMap 思维导图等3个新组件

亮点功能：私有节点&组织内节点

创作场景

全球首个《AI 对话系统分级定义》发布，当前 AI 对话系统水平最高已发展至 L2~L3 之间

AI 对话系统已演进到第三代：以大数据和大模型为显著特征

首个《分级定义》发布，让 AI 对话系统的能力水平可衡量

当前，AI 对话系统水平最高已发展至 L2~L3 之间

专家学者：《分级定义》具有多重意义

公众号推荐：

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载