2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

全球首个《AI 对话系统分级定义》发布,当前 AI 对话系统水平最高已发展至 L2~L3 之间

  • 2022-06-30
  • 本文字数:3506 字

    阅读完需:约 12 分钟

全球首个《AI对话系统分级定义》发布,当前AI对话系统水平最高已发展至L2~L3之间

InfoQ 获悉,6 月 28 日,由清华大学计算机教授、智能技术与系统实验室副主任黄民烈发起,联合了十余家科研机构、二十多位知名学者共同制定的全球首个《AI 对话系统分级定义》(以下简称《分级定义》)正式发布。


《分级定义》将推动 AI 对话系统在虚拟个人助理、智能家居、智能汽车(车载语音)、情感陪护和心理健康等领域的应用有据可依,并将加速下一代 AI 对话系统的研发与应用。



《AI 对话系统分级定义》

AI 对话系统已演进到第三代:以大数据和大模型为显著特征


起源于图灵测试的 AI 对话系统,是人工智能领域最重要的研究方向之一。


如果说自然语言处理是人工智能“皇冠上的明珠”,那么 AI 对话系统则是自然语言处理中最难、最核心的任务之一,是“明珠中最亮的那颗”。


因此,AI 对话系统被认为是衡量人工智能发展水平的重要因素,代表了人工智能的发展方向。


在工业应用领域,AI 对话系统呈现出“爆炸式”增长的态势,如以“小度”“小爱”为代表的智能助理,广泛应用于个人助理、智能家居、智能汽车中,还有以谷歌对话机器人 Meena、Facebook 聊天机器人 Blender 为代表的开放域闲聊产品中,与大众日常生活紧密相关。


黄民烈认为,近年来,随着深度学习技术的不断发展,AI 对话系统已经从基于规则的第一代和以传统机器学习为核心的第二代,发展到以大数据和大模型为显著特征的第三代,对话能力产生了革命性变化,在开放话题上展现了惊人的对话能力,对进一步推动人工智能产业发展、实现智能化具有巨大意义和价值。



AI 对话系统发展历程

首个《分级定义》发布,让 AI 对话系统的能力水平可衡量


然而,作为前沿技术,当前 AI 对话系统标准缺失,造成其在应用中呈现出水平参差不齐、评价体系不一的现状,导致了业界因认知不统一而对人工智能交互水平出现误解,也引起了社会上关于意识、伦理、道德等方面的广泛讨论。


因此,为了更好地评估 AI 对话系统的能力水平,清华大学智能技术与系统实验室副主任黄民烈联合学界和业界科研机构制定了全球首个《AI 对话系统分级定义》,旨在衡量 AI 对话系统的能力水平,从而促进 AI 对话系统的进一步研究,同时为工业界应用提供参考。


以下是参与本次《分级定义》的研究机构和研究者 List(以姓氏拼音排序)。可以看到,基本上国内对话系统的主要玩家都参与到了这次分级定义的制定中。


科大讯飞 AI 研究院副院长陈志刚,京东集团副总裁、IEEE Fellow 何晓冬,清华大学长聘副教授黄民烈,阿里达摩院总监、资深算法专家李永彬,华为诺亚方舟语音语义首席科学家、ACL Fellow 刘群,华为诺亚方舟实验室高级研究员糜飞,百度主任架构师牛正雨,腾讯 AI Lab 总监史树明,中国人民大学副教授宋睿华,阿里达摩院总监孙健,小米技术委员会主席、AI 实验室主任王斌,百度技术委员会主席吴华,美团自然语言处理中心总监武威,中国人民大学副教授严睿,中国科学院深圳先进技术研究院副研究员杨敏,OPPO 高级技术总监杨振宇,哥伦比亚大学助理教授俞舟,北京师范大学新闻传播学院院长张洪忠,哈尔滨工业大学副教授张伟男,北京聆心智能总监郑银河,三星电子中国研究院语言技术部技术总监朱璇。



黄民烈教授详细介绍《分级定义》


发布会现场,黄民烈教授向 InfoQ 等媒体详细介绍了《分级定义》的制定情况。


他表示,考虑到 AI 对话系统任务繁多、评价维度多样、技术路线丰富,撰写小组在制定《分级定义》时仅关注完全由机器主导的对话系统,人机混合的对话系统不在考虑范围内。同时,为了在实际应用中发挥价值,《分级定义》的制定是从用户可感知,以及可观察、可测量、可度量的角度出发,不考虑系统的具体技术实现方式,也不区分助理类任务、闲聊、知识对话等,均以“场景”进行表述。


在上述原则之下,《分级定义》从自动对话能力、对话质量高低、单一/多个场景、跨场景的上下文依赖和自然切换能力、拟人化程度、主动和持续学习能力、多模态感知与表达能力等角度出发,将 AI 对话系统划分为从 L0~L5 的六个等级,等级越高,AI 对话系统水平越高。

当前,AI 对话系统水平最高已发展至 L2~L3 之间


多位参加制定的专家学者向 InfoQ 表示,在此《分级定义》的标准之下,当前,全球 AI 对话系统水平最高已发展至 L2~L3 之间,常见的如“小爱同学”等 AI 智能助理。


按照 L4 的定义,“在 L3 的基础上,在新场景上具有高质量对话能力,在多轮交互中拟人化(指人设、人格、情感、观点等维度的一致性)程度较高”。


现阶段,AI 对话系统在从 L3 向 L4 迈进的过程中,还面临诸多挑战。


华为诺亚方舟语音语义首席科学家、ACL Fellow 刘群认为,保持人设的前后一致性就是一大难点,例如做到在对话过程中没有逻辑错误,在上下文的对话中不会自相矛盾,对话内容需要符合常识,还要跟人设保持一致,有些不一致的对话情形非常隐晦不易觉察...这些实现起来都相当困难。目前,即便是最好的 AI 对话系统,还无法完美符合 L4 的标准。


值得注意的是,L4 级别强调拟人化的能力,但这并不意味着,在 L4 级别之前的 AI 对话系统就可以不用考虑拟人化,即便是 L1 级别也可以考虑实现简单的拟人化。但从分级角度看,拟人化的能力放在 L4 级别更合适,因为拟人化实现起来难度很高。而且,要在已经达到了 L3 的能力的基础上,在先具备多场景的能力后才能衡量拟人化。


可以看到,目前已经有很多厂商在做一些拟人化的探索,例如给 AI 对话产品赋予情感分析、情感疏导、人设等能力,使之表现出一定的拟人化程度,这类简单的拟人化特征相对容易实现。但这并不表明,其达到了 L4 的水平。L4 并不是简单的拟人化,还强调各个维度的一致性,保持一致性具有非常高的要求,此外,相较单轮次对话,在多轮对话中实现拟人特征的一致性富有挑战。即便现有的一些对话系统在做拟人化方面的尝试,但还不足以达到一致性的高度。


L5 级别,代表着 AI 对话系统的最高水平。


从 L4 到 L5 的演进,也需要攻克诸多技术难点。


小米集团技术委员会主席、AI 实验室主任王斌认为,L5 级别所要求的更高的拟人化程度,需要做更多显性、隐性内容的统一理解和一致表达,这个过程挑战重重,对于对话内容及背后的知识都有非常高的理解要求。此外,在开放场景里,L5 级别的 AI 对话系统要主动学习、持续学习,要求机器有主动性,并不断演化成长。对人而言,随着人的成长,其知识、观点、能力等多个维度都在演变,对话系统也要考虑这种演变。对话系统需要通过不断的交互学到新的东西,这样才能不断迭代演化,能力上持续进步。从目前的技术和发展趋势来看,要做到在整个迭代中学到新东西,这是 AI 追求的最终目标,本身就是巨大的挑战。此外,多模态的感知和表达并不如想象中容易。真实的系统中,不同模态间的关系非常复杂,如何从多模态中互相促进也是一个难点。


黄民烈表示,记忆的能力,联想和推理的能力、自学习的能力等都是从 L4 到 L5 实现过程中,需要具备的技术和能力。在 L5 级别,多模态的目标,是让对话系统真正做到“类人”。尤其在未来,如果适用到元宇宙里,表情的识别、语音的理解、从语音中感受情绪等能力就变得非常重要,高表现力的语音合成、动作和表情细粒度的表达等都需要一一攻克。


刘群补充道,记忆能力并不是简单的事情,对话系统不仅要记住人说过的事情,还要对这些记忆进行处理,是需要长期记忆还是短期记忆,是该记忆还是不该记忆,这些都需要很好的建模才能做到。

专家学者:《分级定义》具有多重意义


刘群向 InfoQ 等媒体表示,本次《分级定义》的制定在行业内是一次大胆的尝试,能够引发 AI 对话系统研究领域的思考和讨论,帮助研究人员更好地发现系统的问题并明确研究方向。


王斌表示,在从事 AI 智能助理的研发过程中,时常感到难以评判所开发 AI 对话系统的水平,因此《分级定义》的制定非常必要。《分级定义》发布后,AI 对话系统能力水平的衡量将有据可依。《分级定义》面向大众,面向用户,让用户能够更多地关注、更清晰地理解 AI 对话系统及其当前的能力水平;对行业来说,行业有了统一的评估规范,有助于企业明确研发方向。随着《分级定义》发布,以及后续相关评测规范的制定,能够促进行业更规范地发展。


北京师范大学新闻传播学院院长张洪忠一直非常关注社交机器人所带来的伦理挑战,他认为《分级定义》的发布有助于社会对 AI 对话系统的发展阶段形成更清晰地认知,对于思考、讨论、制定法律规范形成有力参考,以规避 AI 对话可能产生的伦理问题。


AI 对话系统最高级别的应用为复杂情感任务,该《分级定义》的发布将促进 AI 对话系统在情感任务中体现更高水平,从而促进人工智能未来在情感陪伴、心理健康、虚拟人、元宇宙等方面的应用,大大释放人力和物力成本,促进前沿科技走进大众日常生活。


此次《分级定义》的发布,是 AI 对话系统走向规范化、系统化发展的第一步。接下来,黄民烈教授将联合该领域相关研究机构及研究者开展白皮书的编纂,聚焦 AI 对话系统的发展历程,详细阐释《分级定义》的制定目的和标准。

2022-06-30 13:305177
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 567.2 次阅读, 收获喜欢 1978 次。

关注

评论

发布
暂无评论
发现更多内容

中国移动5G消息开发者社区第三期直播课堂圆满结束,直播回放已上线社区!

5G消息

淘宝网 Java 千亿级并发系统架构设计笔记(全彩版小册开源)

Java 架构 面试 后端 高并发

如何让项目准时上线 - 续篇

石云升

项目管理 管理 引航计划 内容合集 9月日更

NoSQL数据库——Cassandra

hanaper

非科班杀进字节跳动,全靠GitHub公认最强的数据结构与算法笔记

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

要不要换种方式开发软件?

鲸品堂

软件开发

马某兵VIP资料惨遭泄露,Java大厂面试手册,21年高频题版

Java架构师迁哥

SpringBoot 如何进行对象复制,老鸟们都这么玩的

Java 架构 后端 计算机 框架

张宏江出席HICOOL 2021全球创业者峰会,阐述AI研究与创业新机遇

硬科技星球

人工智能 大模型时代 悟道2.0

上云迁移之路,如何选择适合方式?

云计算

和阿里大牛的技术面谈,springcloud面试题汇集与答案

Java 程序员 后端

代理服务器转发消息时的相关头部(qbit)

qbit

正向代理与反向代理 Proxy

爬虫初探: 一次爬虫的编写尝试

程序员架构进阶

实战问题 个人思考 9月日更 spider 搜索结果

智慧物流可视化,能否解决购物节后的爆仓危机?

ThingJS数字孪生引擎

大前端 物联网 可视化 智慧物流 数字孪生

为抢人才,字节架构师竟将42W字「2021大厂真题集」,上传GitHub

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

MDEX市值机器人系统开发功能介绍

量化系统19942438797

交易所 市值机器人 MDEX

吊打面试官必备-阿里内部性能优化实战手册

Java架构师迁哥

阿里IM技术分享(三):闲鱼亿级IM消息系统的架构演进之路

JackJiang

架构 即时通讯 IM

IT大厂八股文更新上线的操作系统,刚上线点击量破百万!赶紧收藏

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

Alibaba最新发布:2021最符合Java程序员的“学习路线”

Java架构师迁哥

分布式事务内存数据库--MemDB

hanaper

译介:《组装一台电脑9:精简》

姬翔

9月日更

和腾讯大佬的技术面谈,BTAJ面试有关散列(哈希)表的面试题详解

Java 程序员 后端

和腾讯大牛的技术面谈,分布式系统中ACID和CAP有什么区别

Java 程序员 后端

Alibaba内部713页Java程序性能优化实战手册首次开放!大受好评

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

什么?分布式事务现在不是都在用么?你还不会?

Java 架构 分布式 后端 计算机

突击 22 天面进腾讯,给到 32K*14 薪!全靠这份阿里面试参考指南了

Java 程序员 架构 面试 计算机

自定义View笔记

Changing Lin

9月日更

史诗级放水…字节3-2大牛分享350道Java岗真题,刷完获阿里offer

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

字节内部进阶用的Java中高级岗技术图谱到底泄露了,和开源没区别

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

一年数十万次实验背后的架构与数据科学

百度开发者中心

人工智能 架构 最佳实践 方法论 数据科学

全球首个《AI对话系统分级定义》发布,当前AI对话系统水平最高已发展至L2~L3之间_AI&大模型_刘燕_InfoQ精选文章