OceaBase开发者大会落地上海!4月20日共同探索数据库前沿趋势!报名戳 了解详情
写点什么

Facebook 公布对话式 AI 进展:下一代智能助理何时到来?

  • 2019-09-02
  • 本文字数:3820 字

    阅读完需:约 13 分钟

Facebook公布对话式AI进展:下一代智能助理何时到来?

我们曾翻译过《聊天机器人 vs 移动应用:未来属于谁》,该文认为聊天机器人将是未来所属。看上去,聊天机器人的风头一时无两。但是,聊天机器人的实际表现却让人有些失望。Facebook 曾在聊天机器人领域进行过大量的尝试,然而著名的“助理 M”对话式机器人最后还是难逃被关停的命运。不过,Facebook 并没有就此放弃,反而在这方面付出了更多努力。近日,Facebook官方博客发布了一篇有关对话机器人进展的文章,首次全面的展示了 Facebook 在该领域的发展情况。


对话研究是构建下一代智能代理的重要组成部分。虽然聊天机器人在单域对话(single-domain dialogue)方面已经取得了一些进展,但如今的智能体还远远不能进行跨多个主题的开放域对话(open-domain conversation)。在我们的日常生活中,能够以人们彼此交谈的方式与人类交谈的智能体将会让人们感到更容易、更愉快,而不仅仅是播放一首歌曲或预约约会这样简单的任务。


要在对话中做出连贯、迷人的回应,需要一系列细微的对话技巧,包括语言理解和推理。Facebook AI 在对话研究方面取得了科学的进步,从长远来看,对话研究是构建更迷人、更有人情味的人工智能系统的基础。在本文中,我们将描述新的开源数据集、算法和模型,它们改进了当今开放域聊天机器人的五个常见弱点:一致性、特异性、同理心、知识性和多模态理解。

保持一致性

开发有人情味的聊天机器人的第一步是确保它们能够在没有失误的情况下(如前后矛盾之类)做出适当的响应。前后矛盾、不一致是聊天机器人常见的问题,部分原因是大多数模型既缺乏明确的长期记忆,也缺乏语义理解。例如,在下面的例子中,模型说, “I have 2 cats”,但又说, “I do not have any pets.”



最近,我们与纽约大学的同事合作,开发了一种新的方法,将对话智能体的一致性构建为自然语言推理,(natural language inference,NLI),并创建一个新的 NLI 数据集,名为 “Dialogue NLI”,用于改进和评估对话模型的一致性。在 Dialogue NLI 中,我们分别将对话中的两个话语作为前提和假设。每一对都进行了标记,以表明前提是否与假设相关,或者是否与假设矛盾,还是中立。


我们在这个数据集上训练一个 NLI 模型,并使用它对模型的响应重新排序,以包含先前的对话,或者保持与它们的一致性,从而提高对话智能体的整体一致性。在我们的三个测试集中,我们发现,矛盾现象平均减少了三倍。人类注释者也认为这些模型更加一致,不怎么前后矛盾了。

平衡特异性

生成式对话模型经常默认使用通用的、安全的响应,比如 “I don’t know”。在与斯坦福大学人工智能研究员 Abigail See 的合作中,我们研究了如何通过控制一些会话来解决这个问题,比如特异性水平。当人们参与一个交谈时,我们发现他们明显更喜欢更具体的回应,而不是一般的回应。人类注释者对我们的特异性控制模型是这样评价的:在迷人方面,我们的模型比基线模型要高 28%,在人情味方面则要高出 32%。多样性是交谈的“调味品”。


但是,过于具体的模型可能会导致过于狭隘的专注和 “驴唇不对马嘴” 的对话伙伴。在一项实验中,我们根据角色信息对机器人进行了条件设置,并询问它:“What do you do for a living?” 典型的聊天机器人会用通用语句 “I’m a construction worker.” 作为回应。通过控制方法,我们的聊天机器人提出了更具体、更有吸引力的响应,如 “I build antique homes and refurbish houses.”。



虽然目前的研究大多集中在下一个话语的预测问题上,但我们的工作表明,为了提高会话质量,需要从多个方面进行研究。除了特异性之外,我们还表明,平衡提问和回答以及控制我们的模型的重复程度,也会产生显著的差异。整体对话流越好,未来的聊天机器人和对话式智能体就越吸引人,越有人情味。



在上图中,我们根据集显和不同特异性控制设置校准了人类对吸引力的判断。

移情回应

目前,对话式智能体很难识别情感并做出适当的回应。这可以部分归因于缺乏合适的基准和公开可用的训练数据集。在最近与华盛顿大学的研究人员合作的过程中,我们引入了第一个基准任务,以特定的情感标签为中心,由人类编写的移情对话,来衡量聊天机器人表现移情的能力。除了在自动度量上有所改进之外,我们还表明,使用这些数据进行微调和作为检索候选项,可以得到被人类评估为更有同理心的回应,在三种不同的检索和生成模型上平均提高了 0.95 分(1~5 分)。



这项工作为聊天机器人中发展移情对话提供了新的研究方向。例如,下一个挑战是以移情为中心的模型,要在复杂的对话情景中表现良好,在这种情景中,智能体可能需要在共情与保持主题或提供信息之间取得平衡。

回忆知识

人们很自然地将知识融入到与其说话伙伴的对话中,但开放域的对话式智能体却往往很难利用现有的知识。当前最先进的对话建模方法包括序列到序列模型,这些模型缺乏对对话历史之外信息的访问。为了解决这个问题,需要在这些模型中使用更直接的知识记忆机制。


最近,我们已经提高了对话式模型展示知识的能力,方法是通过从 Wikipedia 收集直接基于知识的对话的数据集,并创建新的模型架构来检索知识、读取知识,并在此基础上设置它们的响应条件。



这种新的架构,称为 Transformer 记忆网络,产生了更有知识的智能体,性能优于那些不使用记忆架构的系统,用于在自动度量和人工评估中存储知识。我们的生成模型变体产生了最明显的改进,并且被人类评价为:相较于那些没有知识的同类,参与度平均提高了 26% 。

对图像的理解

为了与人类交往,智能体不仅应该能够理解对话,还应该能够理解图像。当人们彼此交流,谈论他们周围的事物时,他们不会做出中立的观察,而是表达自己的观点。对图像进行评论的机器学习方法通常侧重于图像里的字幕,这种字幕在语气上是真实的、中立的,就像 “fireworks in the sky.”。在我们的研究中,我们关注的是通过融入个性为人们带来吸引力的图像字幕。我们收集了大量基于图像的人类评论数据集,并训练了最先进的模型,使其能够与特定任务讨论图像,这使得系统对于人类来说更有趣。人们有 64.5% 的情况更喜欢基于个性化的字幕,而不是传统的字幕。



为了构建强大的模型,我们同时考虑了检索和生成变体,并利用来自视觉和语言领域的最新模块。我们定义了一个简单但功能强大的检索架构,命名为 TransResNet。它的工作原理是使用图像、个性和文本编码器在同一空间中投射图像、个性和标题。我们证明了,最好的系统能够生成在参与度和相关性方面接近于人类表现的字幕。事实上,人类注释者在 49.5% 的情况下更喜欢我们的检索模型起的标题,而不是人们写的标题。

展望未来:交互式学习的智能体

今天的对话研究几乎完全是建立在人们相互交流的大量监督学习的基础上,这些通常是通过众包或在互联网上公开获取的。这些数据在分布上可能与部署聊天机器人的环境有很大的不同。为帮助研究人员进一步探索和推动对话研究,重要的是在现实世界中让智能体真正与人类对话。


为此,我们发布了一个新的数据收集和模型评估工具,一个基于 Messenger 的 Chatbot 游戏,名为 Beat the Bot,允许人们直接与机器人和其他人实时互动,创建丰富的例子来帮助训练模型。我们分享这个新工具的目的是为研究人员提供来自实时交互的高信号数据,而不是固定的语言数据。我们计划不断增强这个工具的能力(例如,添加图像理解),以帮助改进我们最新的对话模型,并进一步探索对话研究。



Beat the Bot 目前正处于活动状态:如果你向这个页面发送消息,你将与机器人和其他人匹配。对于你发送的每一条消息,你和对方都会看到两条回复,一条来自你的人类伙伴,一条来自机器人。你可以选择哪个回复更好,然后从那继续对话。这样做的目的是让你的人类会话伙伴比机器人更频繁地选择你的信息。这允许在两个方面进行监督:它提供了人与人之间的对话转换,以及人类对于机器人何时不能与人类的表现相匹配的评估。我们要求用户在游戏中扮演一个与其个人信息完全无关的角色。在游戏开始时得到用户许可后,收集的数据将是开源的,以便为整个社区提供新的研究方向。


此外,在探索聊天机器人如何从部署后的对话中学习的方面,也有一些尚未开发的机会。我们在从这些对话中提取训练信号方面取得了一些进展。在与斯坦福大学的合作中,我们已经证明,通过从与人类的对话中提取训练数据,改进部署的对话智能体是有可能的。



自助式聊天机器人会评估它的对话伙伴对它在互动过程中做出的反应的满意度。当对话智能体认为自己犯了错误时,它可以要求反馈。学习预测这样的反馈有助于模型随着时间的推移而改进。当它相信自己没有犯错时,可以使用标准的监督学习技术来代替。最终,我们发现,无论传统监督的数量多少,通过与自助式聊天机器人的对话学习,都能显著提高性能。当初始训练集很小时,这种改进最为显著:在这种情况下,我们看到对话任务的正确率提高了 9.4 个百分点,相比基线提高了 31%。

下一代聊天机器人

我们的研究表明,训练模型来改善当今聊天机器人的一些最常见的弱点是有可能的。随着时间的推移,我们将通过缩小并最终弥合与人类表现的差距,努力将这些子任务合并到一个统一的智能代理中。在未来,智能聊天机器人将能够以一种人性化、一致性、同理心和吸引人的方式进行开放域的对话。


作为 Facebook AI 对更广泛的研究社区的贡献的一部分,我们在开源对话研究平台 ParlAI 中分享我们的新模型、训练代码和数据集。我们希望这一平台将继续促进整个研究领域的研究进展,并推动对话研究向前发展。


作者介绍:


Emily Dinan、Jason Weston,供职于 Facebook AI 的研究科学家。


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-09-02 16:107193
用户头像

发布了 525 篇内容, 共 240.1 次阅读, 收获喜欢 1543 次。

关注

评论 1 条评论

发布
用户头像
现在聊天机器人都太弱智了,希望能看到新的突破
2019-09-02 17:16
回复
没有更多了
发现更多内容

【高并发】两种异步模型与深度解析Future接口

冰河

Java 并发编程 多线程 高并发 异步编程

千万级学生管理系统的考试试卷存储方案设计

张逃逃

云原生训练营 -Week03

jjn0703

云原生训练营

TuxeraNTFS2022密钥新版安装包更新介绍

茶色酒

Tuxera NTFS2022

千万级学生管理系统的考试试卷存储方案

石小天

「架构实战营」

编码的艺术-书籍推荐

Beaver

编码的艺术

千万级学生管理系统的考试试卷存储方案

孙强

#架构实战营

千万级学生管理系统的考试试卷存储方案

炎彬

「架构实战营」

Spring cloud之LoadBalancer篇

邱学喆

负载均衡 spring cloud全家桶

高并发是一种架构思维模式

陈俊

高并发 技术架构 技术认知

【C语言】卍字通晓→函数+递归

謓泽

递归 C语言 函数 3月月更

如果家庭是一家公司(17/100)

hackstoic

生活随想

千万级学生管理系统的考试试卷存储方案

李大虾

#架构实战营 「架构实战营」

架构学习【04】——千万级学生管理系统的考试试卷存储方案

tiger

架构实战营

设计电商秒杀系统

drizzle

「架构实战营」

文章是“自己的”好

BY林子

技术写作

架构实战营-模块四作业

Leo

架构实战营

消息队列存储

supermenG

架构师训练营 4 期

GitHub 限制俄罗斯使用代码,开源真的无国界吗?

腾源会

开源

什么CRM客户管理系统好用?公司规模不大,有推荐吗

优秀

了解一下CQRS模式

蜜糖的代码注释

架构设计 CQRS DDD框架 3月月更

低代码实现探索(三十五)模型页面vs工程化方式好

零道云-混合式低代码平台

软件工程师文档写作最佳实践

俞凡

写作 研发效能 3月月更

模块四作业-设计千万级学生管理系统的考试试卷存储方案

卡西毛豆静爸

「架构实战营」

模块四作业

Geek_ec866b

架构实战营

c 语言不输出空数据(全面覆盖)

北极的大企鹅

c 问题处理

第四个模块作业

achilles

kube-scheduler源码分析(2)-核心处理逻辑分析

良凯尔

Kubernetes 容器 源码分析 Kubernetes, 云原生, eBPF

重学架构之千万级学生管理系统的考试试卷存储方案

陈华英

架构实战营 #架构实战营

设计微博系统中”微博评论“的高性能高可用计算架构

王大胖

web服务整理

return

Python Go CGI web服务器 uwsgi

Facebook公布对话式AI进展:下一代智能助理何时到来?_AI&大模型_Jason Weston_InfoQ精选文章