写点什么

DeepMind 新发布的聊天机器人很不错,但还有改进空间

  • 2022-11-29
    北京
  • 本文字数:1481 字

    阅读完需:约 5 分钟

DeepMind新发布的聊天机器人很不错,但还有改进空间

DeepMind 最近发布了新的人工智能聊天机器人Sparrow,这是一个“非常有用的对话代理,可以降低不安全和不恰当回答的风险”。谷歌母公司 Alphabet 的这家子公司表示,他们设计这款聊天机器人的目的是“与用户交谈,回答问题,并在必要的时候使用谷歌来查找证据,解释其回复”。


本文最初发布于 Analytics India Magazine


训练对话 AI 非常复杂。即使经过多年的发展,但它们的成熟度仍然远未达到进行类人对话的水平。我们都还记得,几个月前,谷歌的“突破性对话技术”LaMDA 以及与之相关的让人半信半疑的辩论。显然,弥合人和计算机之间的沟通鸿沟说起来容易做起来难。


为此,DeepMind 最近发布了新的人工智能聊天机器人Sparrow,这是一个“非常有用的对话代理,可以降低不安全和不恰当回答的风险”。谷歌母公司 Alphabet 的这家子公司表示,他们设计这款聊天机器人的目的是“与用户交谈,回答问题,并在必要的时候使用谷歌来查找证据,解释其回复”。


人为因素


为了增强模型安全性,希望开发对话 AI 系统的人工智能公司已经尝试了多种技术。例如,OpenAI(著名大型语言模型GPT-3的创建者)和人工智能创业公司 Anthropic 已经使用强化学习将人类的偏好纳入到了他们的模型中。Facebook 的人工智能聊天机器人 BlenderBot 也使用在线搜索来解释其答案。


DeepMind 最新的模型将所有这些安全研究结合到了一个模型中,取得了令人印象深刻的结果。其想法是实现机器和人类之间的连续对话。


与 Alphabet 部门多年来的开发方法相比,其独特之处在于通过提供用户反馈信息来升级 Sparrow。除了将人类纳入循环之外,根据设计,Sparrow 还可以实时使用谷歌搜索来支持其答案。事实证明,聊天过程中的某些问题是有事实基础的,对于这些问题,Sparrow 使用搜索结果为其在聊天过程中的回答生成证据。Sparrow 会自动生成搜索请求,并截取搜索结果片段周围的 500 个字符作为回复。



除了强化学习,Sparrow 还使用了 Chinchilla,其中包含 700 亿个参数,可以方便地进行推断以及优化相对比较轻量级的任务。


SeeKeR 和LaMDA使用了类似的知识检索机制,即用生成的搜索查询来检索信息,并以此为条件作出响应,但 SeeKeR 在评价时不会将检索到的信息显示给评分人,而且它们都没有使用强化学习。

改进空间


与 DeepMind 的基线模型相比,这个概念验证模型是一个很大的改进。目前,在 78%的情况下,该模型可以为事实性问题提供有证据支持并且表面上看合理的答案。但 DeepMind 还没有部署它,这是因为:Sparrow 也难免会犯错,比如对事实产生幻觉,给出的答案有时会偏离主题。此外,依赖谷歌获取信息可能会导致难以发现的未知偏差——因为所有东西都是闭源的



Sparrow 在创建时定义了 23 条规则,以防它提供带有偏见的、令人不快的答案。这些规则包括“不发表威胁言论”和“不发表仇恨或侮辱性言论”等指令。经过训练后,参与者仍然有 8%的几率可以欺骗它打破规则。不过,与更简单的方法相比,Sparrow 在对抗性试探中更善于遵守规则。例如,当参与者试图欺骗对话模型时,原始对话模型打破规则的次数大约是 Sparrow 的 3 倍。


长远来看,DeepMind 希望将 Sparrow 用作监督机器的工具。但在部署之前,还需要做很多工作来弥补缺陷。现在要做的是,集中精力,确保在不同语言和文化背景下取得的结果具有可比性。总之,到目前为止,对话 AI——包括备受称赞的 Sparrow——在遵循规则方面都还有改进的空间(至于有感知能力的机器人,我们可以以后再操心)。


感兴趣的读者可以在 Deepmind 的 Sparrow 聊天库中查看更多的Sparrow聊天记录示例,其中包括作者针对真实性、支持性及其他指标的评级。


原文链接:https://analyticsindiamag.com/deepminds-new-chatbot-is-good-but-still-needs-improvements/

2022-11-29 14:342999

评论

发布
暂无评论
发现更多内容

[EuroSys2023 Best Poster] 面向动态图的极低时延GNN推理采样服务

阿里云大数据AI技术

人工智能 机器学习 推理 企业号 6 月 PK 榜 DGS

Csdn上20W+阅读,这份“Java核心万字宝典”霸榜9天,太香了

Java

文盘Rust -- tokio绑定cpu实践 | 京东云技术团队

京东科技开发者

rust cpu tokio 企业号 6 月 PK 榜

如何开发视频上传和播放功能时,既省钱又体验好?

北桥苏

php ffmpeg OSS HLS m3u8

GitHub标星137k+,超全面Java知识点总结!从10K到40K全有了

Java

行业DBA走进华为,共建数据库生态

YG科技

你还在用 BeanUtils?试试 MapStruct,优雅的对象转换解决方案!

Java你猿哥

Java ssm map

开源赋能 普惠未来|元遨/CARSMOS诚邀您参与2023开放原子全球开源峰会

开放原子开源基金会

开源 CARSMOS 元遨

面渣逆袭必看!Java中高级面试指南,Github标星4.3k+!

Java java面试 Java八股文 Java面试题 Java面试八股文

大语言模型的创意能力到底几何?探索从GPT-2到GPT-4的演进

Baihai IDP

人工智能 自然语言处理 大模型 白海科技 企业号 6 月 PK 榜

火山引擎DataLeap的Catalog系统搜索实践(三):Learning to rank与后续工作

字节跳动数据平台

数据湖 数据化 数据平台 大数据分析 DataLeap

宝兰德应用服务器软件与华为云GaussDB完成兼容互认证

YG科技

自动化回归测试平台 AREX 前端架构演变史 —— Tabs 动态组件设计

AREX 中文社区

Vue 前端 软件测试

深度解析Seata AT 模式中性能优化与隔离保障的平衡之道

Java你猿哥

Java 数据 ssm 脏读

国产自研数据库是更新换代首选

YG科技

从BeyondCampus最佳实践,洞察高校零信任发展趋势

权说安全

🔥笔下生花,与时舒卷,InfoQ写作社区6月优质更文活动来啦!

InfoQ写作社区官方

热门活动 6 月 优质更文活动

GitHub 爆火的「算法刷题宝典」,电子版终于出来了

Java 数据结构 算法 LeetCode

5年Java经验字节社招:15天3次面试,成功拿下Offer

程序知音

Java java面试 大厂面试 后端技术 Java面试八股文

轻量灵动: 革新轻量级服务开发 | 京东云技术团队

京东科技开发者

jdk8 GraalVM jdk17 企业号 6 月 PK 榜

记一次618军演压测TPS上不去排查及优化 | 京东云技术团队

京东科技开发者

JVM 压测 调优 压测分析 企业号 6 月 PK 榜

踩坑:以为是Redis缓存没想到却是Spring事务!

Java redis spring 缓存 事务

华为云GaussDB以技术创新引领金融行业分布式转型

YG科技

阿里、字节大佬共创的Netty核心原理手册,必须是全网No.1

程序知音

Java Netty java架构 Java进阶 后端技术

入职阿里?最少啃完这本500页Java并发多线程源码笔记

程序知音

Java 并发编程 多线程 高并发 后端技术

软件测试/测试开发丨接口自动化测试学习笔记分享

测试人

程序员 软件测试 自动化测试 接口测试 测试开发

二层交换机和三层交换机到底有啥区别?如何从二层切换到三层模式,结合思科、华为、瞻博三厂商!

wljslmz

6 月 优质更文活动

【ChatGPT应用篇】助力Beauty代码的初体验 | 京东云技术团队

京东科技开发者

人工智能 ChatGPT 企业号 6 月 PK 榜

从入门到精通,阿里内部手抄微服务架构笔记,看完感觉我又行了!

Java 架构 微服务 Spring Cloud spring cloud alibaba

DeepMind新发布的聊天机器人很不错,但还有改进空间_AI&大模型_TASMIA ANSARI_InfoQ精选文章