“AI 技术+人才”如何成为企业增长新引擎?戳此了解>>> 了解详情
写点什么

DeepMind 新发布的聊天机器人很不错,但还有改进空间

  • 2022-11-29
    北京
  • 本文字数:1481 字

    阅读完需:约 5 分钟

DeepMind新发布的聊天机器人很不错,但还有改进空间

DeepMind 最近发布了新的人工智能聊天机器人Sparrow,这是一个“非常有用的对话代理,可以降低不安全和不恰当回答的风险”。谷歌母公司 Alphabet 的这家子公司表示,他们设计这款聊天机器人的目的是“与用户交谈,回答问题,并在必要的时候使用谷歌来查找证据,解释其回复”。


本文最初发布于 Analytics India Magazine


训练对话 AI 非常复杂。即使经过多年的发展,但它们的成熟度仍然远未达到进行类人对话的水平。我们都还记得,几个月前,谷歌的“突破性对话技术”LaMDA 以及与之相关的让人半信半疑的辩论。显然,弥合人和计算机之间的沟通鸿沟说起来容易做起来难。


为此,DeepMind 最近发布了新的人工智能聊天机器人Sparrow,这是一个“非常有用的对话代理,可以降低不安全和不恰当回答的风险”。谷歌母公司 Alphabet 的这家子公司表示,他们设计这款聊天机器人的目的是“与用户交谈,回答问题,并在必要的时候使用谷歌来查找证据,解释其回复”。


人为因素


为了增强模型安全性,希望开发对话 AI 系统的人工智能公司已经尝试了多种技术。例如,OpenAI(著名大型语言模型GPT-3的创建者)和人工智能创业公司 Anthropic 已经使用强化学习将人类的偏好纳入到了他们的模型中。Facebook 的人工智能聊天机器人 BlenderBot 也使用在线搜索来解释其答案。


DeepMind 最新的模型将所有这些安全研究结合到了一个模型中,取得了令人印象深刻的结果。其想法是实现机器和人类之间的连续对话。


与 Alphabet 部门多年来的开发方法相比,其独特之处在于通过提供用户反馈信息来升级 Sparrow。除了将人类纳入循环之外,根据设计,Sparrow 还可以实时使用谷歌搜索来支持其答案。事实证明,聊天过程中的某些问题是有事实基础的,对于这些问题,Sparrow 使用搜索结果为其在聊天过程中的回答生成证据。Sparrow 会自动生成搜索请求,并截取搜索结果片段周围的 500 个字符作为回复。



除了强化学习,Sparrow 还使用了 Chinchilla,其中包含 700 亿个参数,可以方便地进行推断以及优化相对比较轻量级的任务。


SeeKeR 和LaMDA使用了类似的知识检索机制,即用生成的搜索查询来检索信息,并以此为条件作出响应,但 SeeKeR 在评价时不会将检索到的信息显示给评分人,而且它们都没有使用强化学习。

改进空间


与 DeepMind 的基线模型相比,这个概念验证模型是一个很大的改进。目前,在 78%的情况下,该模型可以为事实性问题提供有证据支持并且表面上看合理的答案。但 DeepMind 还没有部署它,这是因为:Sparrow 也难免会犯错,比如对事实产生幻觉,给出的答案有时会偏离主题。此外,依赖谷歌获取信息可能会导致难以发现的未知偏差——因为所有东西都是闭源的



Sparrow 在创建时定义了 23 条规则,以防它提供带有偏见的、令人不快的答案。这些规则包括“不发表威胁言论”和“不发表仇恨或侮辱性言论”等指令。经过训练后,参与者仍然有 8%的几率可以欺骗它打破规则。不过,与更简单的方法相比,Sparrow 在对抗性试探中更善于遵守规则。例如,当参与者试图欺骗对话模型时,原始对话模型打破规则的次数大约是 Sparrow 的 3 倍。


长远来看,DeepMind 希望将 Sparrow 用作监督机器的工具。但在部署之前,还需要做很多工作来弥补缺陷。现在要做的是,集中精力,确保在不同语言和文化背景下取得的结果具有可比性。总之,到目前为止,对话 AI——包括备受称赞的 Sparrow——在遵循规则方面都还有改进的空间(至于有感知能力的机器人,我们可以以后再操心)。


感兴趣的读者可以在 Deepmind 的 Sparrow 聊天库中查看更多的Sparrow聊天记录示例,其中包括作者针对真实性、支持性及其他指标的评级。


原文链接:https://analyticsindiamag.com/deepminds-new-chatbot-is-good-but-still-needs-improvements/

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2022-11-29 14:341969

评论

发布
暂无评论
发现更多内容

[Day7]-[动态规划] 最大子数组和

方勇(gopher)

LeetCode 动态规划 数据结构与算法、

王者荣耀商城异地多活架构设计

smile

带码农《手写Mybatis》进度3:实现映射器的注册和使用

小傅哥

小傅哥 mybatis 手写Mybatis

【课程汇总】OpenHarmony成长计划知识赋能第三期系列课程(附链接)

OpenHarmony开发者

OpenHarmony ETS Openharmony啃论文俱乐部

java培训-不干程序员了还能干什么

@零度

JAVA开发

虎符交易所Hoo研究院|关于跨链(上)——Cosmos

区块链前沿News

虎符交易所

深入剖析 RocketMQ 源码 - 负载均衡机制

vivo互联网技术

负载均衡 分布式 java

Flink on K8s 在京东的持续优化实践

Apache Flink

大数据 flink 编程 流计算 实时计算

有了这款工具,定位线上问题事半功倍|云效工程师指北

阿里云云效

云计算 阿里云 程序员 云原生 开发

【架构学习 07】——王者荣耀商城异地多活架构设计

tiger

架构实战营

【模块七】王者荣耀商城异地多活架构设计

yhjhero

架构训练营

web前端培训-数组扁平化实现方式

@零度

前端开发 ES6

大数据培训-程序员坚持不断的学习能成大神吗

@零度

大数据开发

Apache ShardingSphere 企业行|走进怪兽充电

SphereEx

开源 ShardingSphere SphereEx apache 社区 怪兽充电

王者荣耀商城异地多活架构设计

风中奇缘

架构实战营 「架构实战营」

分享回顾|木兰技术开放日,建木团队与你一同畅聊「云原生」

Jianmu

ci 开源 云原生 开发运维

建木持续集成平台v2.2.5发布

Jianmu

开源 持续集成 开发运维 建木CI

TDesign 更新周报(2022年4月第1周)

TDesign

直播回顾| Apache Pulsar 2.10.0 新特性概览

Apache Pulsar

开源 架构 云原生 Apache Pulsar Apache Pulsar 社区

高性能云桌面服务提供商酷栈科技加入龙蜥社区,共建开源新生态

OpenAnolis小助手

开源 云桌面 龙蜥社区 CLA 酷栈科技

面试突击37:线程安全问题的解决方案有哪些?

王磊

Java java面试

为什么Java仍旧生机盎然——对“为什么Java正在消亡”的回应

翊君

Java

OceanBase 在江西人社养老统筹系统的实践分享

OceanBase 数据库

oceanbase 江西人社

OpenMLDB 获评 CSDN IT 技术影响力之星 “年度开源项目”奖项

第四范式开发者社区

人工智能 深度学习 数据库 开源 特征平台

Hoo虎符研究院|区块简报220406期

区块链前沿News

虎符交易所

王者荣耀商城异地多活架构设计

张逃逃

怒肝 JavaScript 数据结构 — 栈篇(一)

杨成功

JavaScript 数据结构 4月月更

最全讲解:GPU技术架构知识

Finovy Cloud

人工智能 GPU服务器 GPU算力

浅谈电商网站开发中用户会话管理机制的设计和实现原理

Jerry Wang

JavaScript 电商 用户管理 电商系统 4月月更

Flink 在 B 站的多元化探索与实践

Apache Flink

大数据 flink 编程 流计算 实时计算

模块二

ASCE

DeepMind新发布的聊天机器人很不错,但还有改进空间_AI&大模型_TASMIA ANSARI_InfoQ精选文章