2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

阿里开源新一代人机对话模型 ESIM,曾创下人机对话准确率新纪录

  • 2019-07-06
  • 本文字数:1666 字

    阅读完需:约 5 分钟

阿里开源新一代人机对话模型ESIM,曾创下人机对话准确率新纪录

阿里达摩院正式开源人机对话模型 ESIM

2018 年 5 月,阿里云栖大会武汉峰会上一段机器人点单的视频火了,阿里巴巴的收银机器人仅用了49秒就搞定了30多杯咖啡的订单


演示环节中,包含了修改、删除、加单等多轮对话,在整个交流过程中,顾客不需要说”hi,点单机“之类呆板的唤醒词,可直接下单,更符合人与人的自然对话。


这项技术的背后支撑,就是来自阿里巴巴达摩院的新一代人机对话模型 ESIM。


该模型最初由达摩院语音实验室内的 90 后科学家陈谦研发,曾在国际顶级对话系统评测大赛(DSTC7)上获得双料冠军,将人机对话准确率的世界纪录提升至 94.1%。


注:DSTC 是学术界权威对话系统评测大赛,由微软研究院、卡耐基梅隆大学的科学家在 2013 年发起,今年举办到了第八届。NOESIS 赛道考察 AI 的人机对话能力,要求 AI 根据给定的多轮人机对话历史,从成百到上万个句子中选出正确的回复。


今天,阿里达摩院宣布,即日起向全世界企业与个人开源 ESIM 模型。


GitHub 地址:https://github.com/alibaba/esim-response-selection

技术原理解析

人机对话系统及其背后的认知智能,是人机交互中最复杂也最重要的技术,曾被比尔盖茨形容为“人工智能皇冠上的明珠”。为让机器快速准确理解人类的表达,ESIM 给 AI 装上一套“雷达”系统,赋予它实时检索对话历史、自动去除干扰信息的能力,使它能够给出人类期待的回复。


ESIM 模型全称是:Enhanced LSTM for Natural Language Inference,是一种转为自然语言推断而生的加强版 LSTM,其架构图如下图所示(ESIM 是左边一部分):



ESIM 模型主要由 input encoding,local inference modeling 和 inference composition 三个部分组成,会直接对从用户的流式口语输入到对用户多个意图的最终理解进行建模,不再依赖子任务的模型和它们的级联,这样极大地减少了各个子任务之间的错误积累和传递。


大致流程是这样:


输入两句话分别接入 embeding + BiLSTM,使用 BiLSTM 可以学习如何表示一句话中的 word 和它上下文的关系,可以理解成这是在 word embedding 之后,在当前的语境下重新编码,得到新的 embeding 向量。



之后计算两个句子 word 之间的相似度,得到二维的相似度矩阵,再进行两句话的 local inference。用之前得到的相似度矩阵,结合 a,b 两句话,互相生成彼此相似性加权后的句子,维度保持不变,公式表示为:



在 local inference 之后,进行 Enhancement of local inference information,分别计算差与乘积,之后再进行聚合操作:



最后,再一次用 BiLSTM 提炼上下文信息,同时使用 MaxPooling 和 AvgPooling 进行池化操作, 再接入全连接层。



在架构上,该方案将算法和业务分离,使用业务知识图谱有效地表达业务相关的知识,利用序列到序列的深度学习模型自动学习出用户口语输入到意图结构化表达的映射关系,利用业务知识图谱表达业务逻辑,对于这个自动的映射学习模型进行强化学习以达到弱监督的目的。 这样一方面整个系统只需要少量端到端的数据标注进行训练,大大减少了标注压力; 另一方面由于知识图谱的松耦合度,使得扩展到新的业务变得更为便捷。


论文地址:https://arxiv.org/pdf/1901.02609.pdf


据阿里巴巴方面介绍,ESIM 人机对话回复模型,比起业界使用最为广泛的 LSTM 模型,回复准确率更高。采用全新 ESIM 模型的人机对话回复模型,比 LSTM 模型回复准确率提升 25%。


InfoQ 还了解到,该模型在对话领域的成功可以预计会给很多应用场景带来显著地变化,比如智能客服、任务型对话系统等等,这一技术突破能大幅地提升实际应用中对话系统回复的准确性和用户体验。


基于 ESIM 模型的多轮对话回复选择技术是语音交互的基础能力之一。在这些基础能力之上,阿里巴巴构建了一系列语音交互应用。


在传统语音交互产品方面,阿里云智能语音交互研究的技术平台能够精准转换用户的语音为对互联网内容和服务的意图,触达手机、IoT 设备、互联网汽车、电视、智能音箱等各类终端。


在下一代人机交互产品方面,阿里已经落地语音售票机,部署在上海地铁供市民使用;肯德基也与阿里云联合推出了一款全球领先的 AI 多场景智能点餐机,并已经率先在杭州云栖上岗服务。



2019-07-06 08:004895
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 292.4 次阅读, 收获喜欢 1305 次。

关注

评论 1 条评论

发布
用户头像
可否把天猫精灵先升下级,用习惯了还是很方便的
2019-07-06 12:18
回复
没有更多了
发现更多内容

2023-06-16:给你一份工作时间表 hours,上面记录着某一位员工每天的工作小时数。 我们认为当员工一天中的工作小时数大于 8 小时的时候,那么这一天就是「劳累的一天」。 所谓「表现良好的时间

福大大架构师每日一题

golang 算法 rust 福大大架构师每日一题

PoseiSwap 即将在 6 月 18 日开启 IDO,白名单申请者超 14000 人

西柚子

风景如旧

风景壁纸

主流文件共享平台的传输加密秘密

镭速

某大厂工作3年,被劣驱良了。。。

Jackpop

PoseiSwap 即将在 6 月 18 日开启 IDO,白名单申请者超 14000 人

股市老人

软件开发人员必须阅读的20本书

越长大越悲伤

架构 微服务 软件开发

DBA 抓包神器 tshark 测评

爱可生开源社区

MySQL 网络协议 TCP协议 抓包工具

Kafka单机搭建(信任认证/口令认证)

Shen-Xmas

kafka zookeeper 测试 搭建 单机

医疗虚拟仿真和虚拟现实有什么区别?哪个更好?

3DCAT实时渲染

虚拟仿真 实时渲染 云仿真

C语言编程语法—语法风格

芯动大师

C语言 语法风格 6 月 优质更文活动

MegEngine 动态执行引擎 Imperative Runtime 架构解析

MegEngineBot

深度学习 开源框架 MegEngine

MySql性能调优:实用的实践与策略

xfgg

MySQL 6 月 优质更文活动

Controller Manager原理分析

穿过生命散发芬芳

6 月 优质更文活动

Generative AI 新世界:过去、现在和未来

亚马逊云科技 (Amazon Web Services)

人工智能 机器学习

智能坐席助手如何助力保险集团实现客户服务闭环管理?

中关村科金

企业服务 坐席助手

入职新公司,水土不服该怎么破?

Jackpop

Kubernetes Scheduler原理分析

穿过生命散发芬芳

k8s 6 月 优质更文活动

大牛一次带你彻底搞懂Spring核心容器的动态代理机制与SpringAOP

互联网架构师小马

数据库运维实操优质文章分享(含Oracle、MySQL等) | 2023年5月刊

墨天轮

MySQL 数据库 oracle postgresql opengauss

3年经验程序员终于把Spring核心容器的面向切面与Spring AOP搞懂了

互联网架构师小马

消保评级提升指南!保险公司如何高效开展消保工作?

中关村科金

解决方案

PoseiSwap 即将在 6 月 18 日开启 IDO,白名单申请者超 14000 人

BlockChain先知

STM32配合W5500网卡连接MQTT服务器

DS小龙哥

6 月 优质更文活动

语音社交源码知识语音房间功能的实现

山东布谷科技

源码 软件开发 源码搭建 语音社交软件 语音厅平台搭建

FP&A转型,企业全面预算管理发展的催化剂

智达方通

全面预算管理 企业全面预算管理

还没毕业,就“被毕业”,太惨了!

Jackpop

难得可贵的Spring依赖注入实战经验,是程序员就该吸收一下!

互联网架构师小马

Java spring

阿里开源新一代人机对话模型ESIM,曾创下人机对话准确率新纪录_AI&大模型_陈思_InfoQ精选文章