在 2025 收官前,看清 Data + AI 的真实走向,点击查看 BUILD 大会精华版 了解详情
写点什么

阿里开源新一代人机对话模型 ESIM,曾创下人机对话准确率新纪录

  • 2019-07-06
  • 本文字数:1666 字

    阅读完需:约 5 分钟

阿里开源新一代人机对话模型ESIM,曾创下人机对话准确率新纪录

阿里达摩院正式开源人机对话模型 ESIM

2018 年 5 月,阿里云栖大会武汉峰会上一段机器人点单的视频火了,阿里巴巴的收银机器人仅用了49秒就搞定了30多杯咖啡的订单


演示环节中,包含了修改、删除、加单等多轮对话,在整个交流过程中,顾客不需要说”hi,点单机“之类呆板的唤醒词,可直接下单,更符合人与人的自然对话。


这项技术的背后支撑,就是来自阿里巴巴达摩院的新一代人机对话模型 ESIM。


该模型最初由达摩院语音实验室内的 90 后科学家陈谦研发,曾在国际顶级对话系统评测大赛(DSTC7)上获得双料冠军,将人机对话准确率的世界纪录提升至 94.1%。


注:DSTC 是学术界权威对话系统评测大赛,由微软研究院、卡耐基梅隆大学的科学家在 2013 年发起,今年举办到了第八届。NOESIS 赛道考察 AI 的人机对话能力,要求 AI 根据给定的多轮人机对话历史,从成百到上万个句子中选出正确的回复。


今天,阿里达摩院宣布,即日起向全世界企业与个人开源 ESIM 模型。


GitHub 地址:https://github.com/alibaba/esim-response-selection

技术原理解析

人机对话系统及其背后的认知智能,是人机交互中最复杂也最重要的技术,曾被比尔盖茨形容为“人工智能皇冠上的明珠”。为让机器快速准确理解人类的表达,ESIM 给 AI 装上一套“雷达”系统,赋予它实时检索对话历史、自动去除干扰信息的能力,使它能够给出人类期待的回复。


ESIM 模型全称是:Enhanced LSTM for Natural Language Inference,是一种转为自然语言推断而生的加强版 LSTM,其架构图如下图所示(ESIM 是左边一部分):



ESIM 模型主要由 input encoding,local inference modeling 和 inference composition 三个部分组成,会直接对从用户的流式口语输入到对用户多个意图的最终理解进行建模,不再依赖子任务的模型和它们的级联,这样极大地减少了各个子任务之间的错误积累和传递。


大致流程是这样:


输入两句话分别接入 embeding + BiLSTM,使用 BiLSTM 可以学习如何表示一句话中的 word 和它上下文的关系,可以理解成这是在 word embedding 之后,在当前的语境下重新编码,得到新的 embeding 向量。



之后计算两个句子 word 之间的相似度,得到二维的相似度矩阵,再进行两句话的 local inference。用之前得到的相似度矩阵,结合 a,b 两句话,互相生成彼此相似性加权后的句子,维度保持不变,公式表示为:



在 local inference 之后,进行 Enhancement of local inference information,分别计算差与乘积,之后再进行聚合操作:



最后,再一次用 BiLSTM 提炼上下文信息,同时使用 MaxPooling 和 AvgPooling 进行池化操作, 再接入全连接层。



在架构上,该方案将算法和业务分离,使用业务知识图谱有效地表达业务相关的知识,利用序列到序列的深度学习模型自动学习出用户口语输入到意图结构化表达的映射关系,利用业务知识图谱表达业务逻辑,对于这个自动的映射学习模型进行强化学习以达到弱监督的目的。 这样一方面整个系统只需要少量端到端的数据标注进行训练,大大减少了标注压力; 另一方面由于知识图谱的松耦合度,使得扩展到新的业务变得更为便捷。


论文地址:https://arxiv.org/pdf/1901.02609.pdf


据阿里巴巴方面介绍,ESIM 人机对话回复模型,比起业界使用最为广泛的 LSTM 模型,回复准确率更高。采用全新 ESIM 模型的人机对话回复模型,比 LSTM 模型回复准确率提升 25%。


InfoQ 还了解到,该模型在对话领域的成功可以预计会给很多应用场景带来显著地变化,比如智能客服、任务型对话系统等等,这一技术突破能大幅地提升实际应用中对话系统回复的准确性和用户体验。


基于 ESIM 模型的多轮对话回复选择技术是语音交互的基础能力之一。在这些基础能力之上,阿里巴巴构建了一系列语音交互应用。


在传统语音交互产品方面,阿里云智能语音交互研究的技术平台能够精准转换用户的语音为对互联网内容和服务的意图,触达手机、IoT 设备、互联网汽车、电视、智能音箱等各类终端。


在下一代人机交互产品方面,阿里已经落地语音售票机,部署在上海地铁供市民使用;肯德基也与阿里云联合推出了一款全球领先的 AI 多场景智能点餐机,并已经率先在杭州云栖上岗服务。



2019-07-06 08:005158
用户头像
陈思 InfoQ编辑

发布了 584 篇内容, 共 310.1 次阅读, 收获喜欢 1306 次。

关注

评论 1 条评论

发布
用户头像
可否把天猫精灵先升下级,用习惯了还是很方便的
2019-07-06 12:18
回复
没有更多了
发现更多内容

我对管理的理解

老张

团队管理 管理者 人员招聘

DDOS的防护方案

德迅云安全杨德俊

淘宝商品详情数据接口(商品价格,商品库存,商品销量,商品优惠券)

tbapi

淘宝商品详情数据接口 淘宝API接口

万亿数据规模下,火山引擎ByteHouse助力银行日志数据高效分析

字节跳动数据平台

数据库 云原生 Clickhouse 数仓

Go 程序如何实现优雅退出?来看看 K8s 是怎么做的——上篇

江湖十年

k8s k8s知识 Go web #k8s Go 面试题 面经 后端 大厂

Microsoft Teams电话

cts喜友科技

通信 通讯 云通讯

资源加载失败重载与前端升级检测方案

yuanyxh

前端 js

吴恩达辞任Landing AI CEO,专注AI投资?数学家斯蒂芬预言哲学家引领AI未来|AI日报

可信AI进展

人工智能

FlagEval 8月榜 | 文生视频大模型主观评测结果揭晓,新增6款新发布模型

智源研究院

GalaChain 全面剖析:为 Web3 游戏和娱乐而生的创新区块链

Footprint Analytics

如何设计真正的实时数据湖?

tapdata

实时数据湖 数据集处理流程 湖仓一体是什么

【KDD2024】面向集群整体作业运行变慢的异常检测

阿里云大数据AI技术

人工智能 数据挖掘 阿里云 异常检测 论文

喜讯!云起无垠创始人沈凯文博士荣列科学家创业先锋榜

云起无垠

IT行业怎么定义?需要堡垒机吗?

行云管家

堡垒机 IT行业

不使用 JS 纯 CSS 获取屏幕宽高

南城FE

CSS 前端

官宣:KaiwuDB 开源啦!

KaiwuDB

KaiwuDB 开源啦

SRE 必备知识 - Kafka 探秘之零拷贝技术

巴辉特

kafka zero-copy

百度搜索的RLHF性能优化实践

百度Geek说

百度 算法 性能优化

决定LED屏价格的关键因素

Dylan

产品 生产 LED显示屏 全彩LED显示屏 led显示屏厂家

从 0 到 1 搭建一个 No Server 的博客能学到什么

yuanyxh

前端 js React Blog

大模型没有“知识围城”

脑极体

AI

面试官:Leader崩溃Follower不够新怎么办?

王磊

Web Components 使用体验

yuanyxh

WebComponent webComponents

ETL数据集成丨实现SQLServer数据库的高效实时数据同步

谷云科技RestCloud

MySQL 数据库 ETL SqlServer 数据集成

阿里开源新一代人机对话模型ESIM,曾创下人机对话准确率新纪录_AI&大模型_陈思_InfoQ精选文章