【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

微软发布对话数据集,旨在让聊天机器人更智能

  • 2017-05-03
  • 本文字数:1301 字

    阅读完需:约 4 分钟

Maluuba 是微软旗下一家致力于通用人工智能的公司。近日,该公司新发布了一个开放的对话数据集。该数据集基于假期预定的场景——具体来说,查找航班和宾馆。

近年来,聊天机器人的数量越来越多,尤其是自一年前Facebook 向这些机器人开放 Messenger 平台以来。目前,大多数机器人仅支持简单的顺序交互。类似旅行规划这样的高级场景对聊天机器人来说仍然很困难。借助这个数据集,Maluuba(最近被微软收购)帮助研究人员和开发人员让他们的聊天机器人更智能。

Maluuba 让两个人在聊天室中对话并收集了这些数据。一个人扮演用户,另一个人充当计算机。用户试图查找特价机票,另一个充当聊天机器人的人使用数据库检索信息。交互只包含文本(没有口语交互),研究人员有意识地选择了这个方法。大部分人都喜欢打字,而不是说话,那也就是说,这份数据集就远离了质量不高的语音识别和背景噪声。该数据集包含 1369 句有关旅行规划的对话,可以免费下载

Maluuba 还提供了一种表示对话的方式。让旅行规划更加困难的是,用户经常改变谈话主题。你可能同时讨论去滑铁卢、蒙特利尔、多伦多的计划。对于我们人类而言,将人们在交谈中制定的不同计划分开并不困难。不过,如果用户在预订之前探讨了多个选项,那么计算机往往会遇到问题。当你突然输入一个新目的地,大多数聊天机器人都会忘记你刚刚谈论的所有内容。下面左边那副图是“传统”聊天机器人的交互。当用户说出一个新城市时,机器人会忘记旧城市。右侧是微软发布的数据集中出现的一个模式:用户在做出决定之前比较多个城市。

[点击查看大图]

这就是为什么微软引入了所谓的“框”。每次用户修改了以前设置的值,向导程序就会新建一个框。每个跟踪框会记录所有用户提到的不同的约束集合。这让你可以同时谈论预定到蒙特利尔最贵 200 美元的旅行和到多伦多最贵 300 美元的旅行。这种会话记忆向着构建可以在在线旅游场景中帮助用户探讨不同航班的机器人迈进了一步。

传统的聊天机器人,就像你可以在 Pandorabots 上创建的机器人那样,会设法将对话导向所谓的“格位填充(slot-filling)”。机器人会设法在你给出的答案中找出一些属性(如名字和年龄)。一旦聊天机器人知道了这些属性,对话就会继续,机器人会设法填充下一个格位。其他公司,如被 Facebook 收购的 Wit ,已经通过“故事”把这种理念向前推进了一步。这个位于语言理解层之上的“柔性层(flexible layer)”已经创建了“让人感觉更自然的”对话。Maluuba 发布的数据集更进一步,它侧重于进行同时涉及多个主题的对话。

3 月 28 日,Tim Peterson发表了一篇文章,探讨目前聊天机器人的缺点。该数据集解决了Peterson 谈到的其中一个问题:由于聊天机器人的用户少导致聊天机器人开发人员可以获得的数据少。由于许多聊天机器人在理解自然语言时都有问题,所以开发人员经常向他们的机器人添加“快速回复”。有了这些回复,用户可以从一个机器人确定可以理解的、较小的选项集中选择他们的回复。虽然这特性个对于那些知道要说什么的用户有用,但那同时也意味着,对于那些相对不常见的用户查询,永远都不会开发相应的回复。

[点击查看大图]

查看英文原文 Microsoft Releases Dialogue Dataset to Make Chatbots Smarter

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2017-05-03 19:002751
用户头像

发布了 1008 篇内容, 共 374.0 次阅读, 收获喜欢 340 次。

关注

评论

发布
暂无评论
发现更多内容

DaaS服务之分布式日志/缓存/对象存储

穿过生命散发芬芳

4月月更

[Day28]-[二叉树]左叶子之和

方勇(gopher)

LeetCode 数据结构与算法

2022语言与智能技术竞赛再升级,推出NLP四大前沿任务

百度大脑

Selenium自动化应该避免的测试场景

FunTester

资源画像,让容器资源规格的填写不再纠结

阿里巴巴云原生

阿里云 容器 云原生

Java面试题库答案(技术+人事)

Java架构追梦

Java java面试 后端开发 程序员面试、

云原生时代的搜索服务算力管理

百度Geek说

架构 云原生 后端

linux之软连接和硬连接的区别

入门小站

Linux

我们在讲的 Database Plus,到底能解决什么样的问题?

SphereEx

Apache 数据库 开源 ShardingSphere SphereEx

CorelDRAW Graphics Suite2022中文版

茶色酒

cdr2022

重学架构之电商秒杀系统

陈华英

架构实战营

细数云上综合治理始末,华为云联创营解码企业运维之道

Geek_2d6073

关于K8s中Service Account的一些笔记:Pod内部如何访问K8s集群

山河已无恙

k8s 4月月更

linux之软连接和硬连接的区别

入门小站

Linux

[Day29]-[数组]将一维数组转变成二维数组

方勇(gopher)

LeetCode 数据结构算法

多方系统集成的启示

QualityFocus

集成测试 系统集成

你竟不劝我坚持

QualityFocus

职业规划 职业生涯规划

浮点数-Float-Double转二进制

入门小站

工具

多方安全计算(MPC)发展脉络及应用实践

洞见科技

数据安全 隐私计算 多方安全计算 密码学和算法

Apache ShardingSphere 代码格式化实战 —— Spotless

SphereEx

Apache 数据库 开源 ShardingSphere SphereEx

与多家机构战略合作,背后彰显PlatoFarm元宇宙龙头的实力

BlockChain先知

RTC 科普视频丨聊聊空间音频的原理与其背后的声学原理

声网

RTE技术详解 空间音频

ECA 认证备考指南

Se7en

清华校友走进百度 用科技赋能产业智能化转型

百度大脑

赛事解析|乒乓球时序动作定位大赛亚军方案分享

百度大脑

虎符Hoo即将上线现货网格交易功能

区块链前沿News

虎符交易所

制造蝴蝶飓风,微众区块链的蝶变和ESG新使命

脑极体

在线Excel转SQL工具

入门小站

工具

R 编程语言 - 简介

海拥(haiyong.site)

R语言 4月月更

从概念、部署到优化,Kubernetes Ingress 网关的落地实践

阿里巴巴云原生

阿里云 Kubernetes 云原生 网关

参加 KubeVela 开源之夏,给你的云计算编程能力加个 Buff

阿里巴巴云原生

阿里云 云原生 开源之夏

微软发布对话数据集,旨在让聊天机器人更智能_微软_Roland Meertens_InfoQ精选文章