最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

阿里开源新一代人机对话模型 ESIM,曾创下人机对话准确率新纪录

  • 2019-07-06
  • 本文字数:1666 字

    阅读完需:约 5 分钟

阿里开源新一代人机对话模型ESIM,曾创下人机对话准确率新纪录

阿里达摩院正式开源人机对话模型 ESIM

2018 年 5 月,阿里云栖大会武汉峰会上一段机器人点单的视频火了,阿里巴巴的收银机器人仅用了49秒就搞定了30多杯咖啡的订单


演示环节中,包含了修改、删除、加单等多轮对话,在整个交流过程中,顾客不需要说”hi,点单机“之类呆板的唤醒词,可直接下单,更符合人与人的自然对话。


这项技术的背后支撑,就是来自阿里巴巴达摩院的新一代人机对话模型 ESIM。


该模型最初由达摩院语音实验室内的 90 后科学家陈谦研发,曾在国际顶级对话系统评测大赛(DSTC7)上获得双料冠军,将人机对话准确率的世界纪录提升至 94.1%。


注:DSTC 是学术界权威对话系统评测大赛,由微软研究院、卡耐基梅隆大学的科学家在 2013 年发起,今年举办到了第八届。NOESIS 赛道考察 AI 的人机对话能力,要求 AI 根据给定的多轮人机对话历史,从成百到上万个句子中选出正确的回复。


今天,阿里达摩院宣布,即日起向全世界企业与个人开源 ESIM 模型。


GitHub 地址:https://github.com/alibaba/esim-response-selection

技术原理解析

人机对话系统及其背后的认知智能,是人机交互中最复杂也最重要的技术,曾被比尔盖茨形容为“人工智能皇冠上的明珠”。为让机器快速准确理解人类的表达,ESIM 给 AI 装上一套“雷达”系统,赋予它实时检索对话历史、自动去除干扰信息的能力,使它能够给出人类期待的回复。


ESIM 模型全称是:Enhanced LSTM for Natural Language Inference,是一种转为自然语言推断而生的加强版 LSTM,其架构图如下图所示(ESIM 是左边一部分):



ESIM 模型主要由 input encoding,local inference modeling 和 inference composition 三个部分组成,会直接对从用户的流式口语输入到对用户多个意图的最终理解进行建模,不再依赖子任务的模型和它们的级联,这样极大地减少了各个子任务之间的错误积累和传递。


大致流程是这样:


输入两句话分别接入 embeding + BiLSTM,使用 BiLSTM 可以学习如何表示一句话中的 word 和它上下文的关系,可以理解成这是在 word embedding 之后,在当前的语境下重新编码,得到新的 embeding 向量。



之后计算两个句子 word 之间的相似度,得到二维的相似度矩阵,再进行两句话的 local inference。用之前得到的相似度矩阵,结合 a,b 两句话,互相生成彼此相似性加权后的句子,维度保持不变,公式表示为:



在 local inference 之后,进行 Enhancement of local inference information,分别计算差与乘积,之后再进行聚合操作:



最后,再一次用 BiLSTM 提炼上下文信息,同时使用 MaxPooling 和 AvgPooling 进行池化操作, 再接入全连接层。



在架构上,该方案将算法和业务分离,使用业务知识图谱有效地表达业务相关的知识,利用序列到序列的深度学习模型自动学习出用户口语输入到意图结构化表达的映射关系,利用业务知识图谱表达业务逻辑,对于这个自动的映射学习模型进行强化学习以达到弱监督的目的。 这样一方面整个系统只需要少量端到端的数据标注进行训练,大大减少了标注压力; 另一方面由于知识图谱的松耦合度,使得扩展到新的业务变得更为便捷。


论文地址:https://arxiv.org/pdf/1901.02609.pdf


据阿里巴巴方面介绍,ESIM 人机对话回复模型,比起业界使用最为广泛的 LSTM 模型,回复准确率更高。采用全新 ESIM 模型的人机对话回复模型,比 LSTM 模型回复准确率提升 25%。


InfoQ 还了解到,该模型在对话领域的成功可以预计会给很多应用场景带来显著地变化,比如智能客服、任务型对话系统等等,这一技术突破能大幅地提升实际应用中对话系统回复的准确性和用户体验。


基于 ESIM 模型的多轮对话回复选择技术是语音交互的基础能力之一。在这些基础能力之上,阿里巴巴构建了一系列语音交互应用。


在传统语音交互产品方面,阿里云智能语音交互研究的技术平台能够精准转换用户的语音为对互联网内容和服务的意图,触达手机、IoT 设备、互联网汽车、电视、智能音箱等各类终端。


在下一代人机交互产品方面,阿里已经落地语音售票机,部署在上海地铁供市民使用;肯德基也与阿里云联合推出了一款全球领先的 AI 多场景智能点餐机,并已经率先在杭州云栖上岗服务。



公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-07-06 08:004608
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 262.6 次阅读, 收获喜欢 1293 次。

关注

评论 1 条评论

发布
用户头像
可否把天猫精灵先升下级,用习惯了还是很方便的
2019-07-06 12:18
回复
没有更多了
发现更多内容

面由心生,由脸观心:基于AI的面部微表情分析技术解读

百度大脑

评测有礼 | 飞桨黑客松第二期热身活动上线啦!

百度大脑

CorelDRAW2022最新订阅版本下载

茶色酒

cdr2022

Powershell基础之脚本执行

喀拉峻

网络安全 安全 渗透测试

区块链的过去与未来

CECBC

自己动手写Docker系列 -- 3.1构造实现run命令版本的容器

Go Docker

快速入门!全国大学生智能汽车竞赛百度创意组首期直播宣讲来啦

百度大脑

开发提效小技巧分享(二)

编程三昧

工具 gitee GitHub、 3月月更

7招!实现安全高效的流水线管理

阿里云云效

云计算 阿里云 运维 云原生 持续交付

Mac 配置 Flutter 安卓开发环境

岛上码农

flutter ios 安卓 移动开发 3月月更

区块链共识,机器说了算还是人说了算?

Akumas

区块链 数字化转型 共识机制 十四五规划

【C语言】轻松解决Bug

謓泽

C语言 bug 3月月更

面向企业级前端应用的开发框架 UI5 的发展简史介绍

Jerry Wang

JavaScript 前端开发 前端框架 企业级应用 3月月更

百度Q4财报:百度智能云2021年营收151亿元,同比大增64%

百度大脑

当听障人士实现手语自由:手语AI平台的产业狂想

脑极体

重磅硬核 | 一文聊透对象在JVM中的内存布局,以及内存对齐和压缩指针的原理及应用

bin的技术小屋

JVM 内存 Java虚拟机 false sharing java

千万级学生管理系统的考试试卷存储方案

AragornYang

架构训练营 架构实战营

工业AI落地场景案例实战,飞桨EasyDL让工业更智能

百度大脑

俄罗斯能通过加密货币规避制裁吗?

CECBC

两会声音|建议完善数字人民币体系 完善数字货币立法

CECBC

昇思MindSpore再突破:蛋白质结构预测训练推理全流程开源,助力生物医药发展

Geek_32c4d0

mindspore 昇思 生物医药

群晖(Synology)NAS 后台安装 Docker 后配置 Mariadb / MySQL

HoneyMoose

低代码实现探索(三十四)前台code逻辑

零道云-混合式低代码平台

最好用的 6 款 Vue 拖拽组件库推荐 - 卡拉云

蒋川

Vue Vue3 vue cli

中国AI的“底线思维”与安全锁

脑极体

群晖(Synology)NAS 安装 Mariadb 数据库启动错误

HoneyMoose

半导体材料的国产替代,机遇与挑战并存!

IC男奋斗史

芯片行业思考 芯片技术 芯片上游

群晖(Synology)NAS 后台安装 Docker 后配置 Mariadb / MySQL 配置端口

HoneyMoose

HTTP的成长

Tristan

前端 浏览器 网络 HTTP

赋能区域产业,南京、成都双城AI开发者Meetup报名开启

百度大脑

安全无小事,教你解决密码泄露问题!

老陈

工具 安全 密码泄露

阿里开源新一代人机对话模型ESIM,曾创下人机对话准确率新纪录_AI&大模型_陈思_InfoQ精选文章