写点什么

DeepMind 新发布的聊天机器人很不错,但还有改进空间

  • 2022-11-29
    北京
  • 本文字数:1481 字

    阅读完需:约 5 分钟

DeepMind新发布的聊天机器人很不错,但还有改进空间

DeepMind 最近发布了新的人工智能聊天机器人Sparrow,这是一个“非常有用的对话代理,可以降低不安全和不恰当回答的风险”。谷歌母公司 Alphabet 的这家子公司表示,他们设计这款聊天机器人的目的是“与用户交谈,回答问题,并在必要的时候使用谷歌来查找证据,解释其回复”。


本文最初发布于 Analytics India Magazine


训练对话 AI 非常复杂。即使经过多年的发展,但它们的成熟度仍然远未达到进行类人对话的水平。我们都还记得,几个月前,谷歌的“突破性对话技术”LaMDA 以及与之相关的让人半信半疑的辩论。显然,弥合人和计算机之间的沟通鸿沟说起来容易做起来难。


为此,DeepMind 最近发布了新的人工智能聊天机器人Sparrow,这是一个“非常有用的对话代理,可以降低不安全和不恰当回答的风险”。谷歌母公司 Alphabet 的这家子公司表示,他们设计这款聊天机器人的目的是“与用户交谈,回答问题,并在必要的时候使用谷歌来查找证据,解释其回复”。


人为因素


为了增强模型安全性,希望开发对话 AI 系统的人工智能公司已经尝试了多种技术。例如,OpenAI(著名大型语言模型GPT-3的创建者)和人工智能创业公司 Anthropic 已经使用强化学习将人类的偏好纳入到了他们的模型中。Facebook 的人工智能聊天机器人 BlenderBot 也使用在线搜索来解释其答案。


DeepMind 最新的模型将所有这些安全研究结合到了一个模型中,取得了令人印象深刻的结果。其想法是实现机器和人类之间的连续对话。


与 Alphabet 部门多年来的开发方法相比,其独特之处在于通过提供用户反馈信息来升级 Sparrow。除了将人类纳入循环之外,根据设计,Sparrow 还可以实时使用谷歌搜索来支持其答案。事实证明,聊天过程中的某些问题是有事实基础的,对于这些问题,Sparrow 使用搜索结果为其在聊天过程中的回答生成证据。Sparrow 会自动生成搜索请求,并截取搜索结果片段周围的 500 个字符作为回复。



除了强化学习,Sparrow 还使用了 Chinchilla,其中包含 700 亿个参数,可以方便地进行推断以及优化相对比较轻量级的任务。


SeeKeR 和LaMDA使用了类似的知识检索机制,即用生成的搜索查询来检索信息,并以此为条件作出响应,但 SeeKeR 在评价时不会将检索到的信息显示给评分人,而且它们都没有使用强化学习。

改进空间


与 DeepMind 的基线模型相比,这个概念验证模型是一个很大的改进。目前,在 78%的情况下,该模型可以为事实性问题提供有证据支持并且表面上看合理的答案。但 DeepMind 还没有部署它,这是因为:Sparrow 也难免会犯错,比如对事实产生幻觉,给出的答案有时会偏离主题。此外,依赖谷歌获取信息可能会导致难以发现的未知偏差——因为所有东西都是闭源的



Sparrow 在创建时定义了 23 条规则,以防它提供带有偏见的、令人不快的答案。这些规则包括“不发表威胁言论”和“不发表仇恨或侮辱性言论”等指令。经过训练后,参与者仍然有 8%的几率可以欺骗它打破规则。不过,与更简单的方法相比,Sparrow 在对抗性试探中更善于遵守规则。例如,当参与者试图欺骗对话模型时,原始对话模型打破规则的次数大约是 Sparrow 的 3 倍。


长远来看,DeepMind 希望将 Sparrow 用作监督机器的工具。但在部署之前,还需要做很多工作来弥补缺陷。现在要做的是,集中精力,确保在不同语言和文化背景下取得的结果具有可比性。总之,到目前为止,对话 AI——包括备受称赞的 Sparrow——在遵循规则方面都还有改进的空间(至于有感知能力的机器人,我们可以以后再操心)。


感兴趣的读者可以在 Deepmind 的 Sparrow 聊天库中查看更多的Sparrow聊天记录示例,其中包括作者针对真实性、支持性及其他指标的评级。


原文链接:https://analyticsindiamag.com/deepminds-new-chatbot-is-good-but-still-needs-improvements/

2022-11-29 14:342278

评论

发布
暂无评论
发现更多内容

征程 6 云端 Ota 升级方案设计与实现

地平线开发者

自动驾驶 算法 地平线征程5

苹果M4芯片玩游戏怎么样?全新MacBook Pro 适合打游戏吗?

阿拉灯神丁

crossover pd虚拟机 MacBook Pro 苹果mac游戏 macOS 14 Sonoma

从体系建设到深化应用,中国管理会计实现十年跃迁(上)

用友智能财务

【YashanDB知识库】insert语句有编码不识别字,执行卡住问题

YashanDB

数据库

Kali Linux 2024.4 发布 - 领先的渗透测试发行版

sysin

kali Linux

AWS re:Invent 2024 — AI 基础设施架构

云物互联

亚马逊云科技 AI基础设施

《Django 5 By Example》读后感

codists

Python django

DNS DDoS攻击威胁加剧,国科云解析筑牢网络安全防线

国科云

SD-WAN加速海外SaaS访问速度

Ogcloud

网络加速 SD-WAN SD-WAN组网 SDWAN SD-WAN国际专线

为什么技术高管汇报一定要用数据说话?

思码逸研发效能

程序员 研发效能 IT管理 研发效能度量 管理技术团队

【YashanDB知识库】in大量参数时查询性能慢

YashanDB

数据库 yashandb

扫段攻击来袭,DDoS防御面临新挑战

网络安全服务

IP udp syn DDoS DDoS 攻击

李飞飞团队多模态模型统一动作与语言;OpenAI 推出电话服务,让更多人与 Chatgpt 对话丨 RTE 开发者日报

声网

亿方云企业网盘功能解析:与10款主流网盘比较优劣

易成研发中心

2024年团队文档共享:盘点8款热门网盘

易成研发中心

【杂谈】服务端能同时处理多少个 Socket 连接?背后的资源与限制分析

不在线第一只蜗牛

网络 服务器

【YashanDB知识库】服务器重启后Yashandb无法启动

YashanDB

数据库 yashandb

【YashanDB知识库】如何处理no free block in dictionary cache

YashanDB

数据库 yashandb

质变科技 AI-ready Data Cloud|从存算分离到Serverless,数仓要解决的关键问题

AI数据云Relyt

大数据 Serverless 数据仓库 数据湖 存算分离架构

天谋科技时序数据库 IoTDB 入选工信部中国电子信息行业联合会优秀创新软件产品推广目录

Apache IoTDB

一触“伙伴+华为”体系,传媒行业点亮数智之光

脑极体

AI 传媒

喜讯!云起无垠荣膺信通院 2023 - 2024 年度 “铸链” 案例自主研发创新成果奖

云起无垠

AutoMQ 流表一体新特性 Table Topic 发布: 无缝集成 AWS S3 Table 和 Iceberg

AutoMQ

kafka iceberg 3S reinvent

质变科技 AI-ready Data Cloud|行列混存格式下的读链路优化

AI数据云Relyt

数据仓库 AI-ready 数据云

人才招聘系统哪个好?分享国内企业爱用的8款招聘系统

易成研发中心

【YashanDB知识库】IMP跨网络导入慢问题

YashanDB

数据库 yashandb

决赛预告|2024数据库编程大赛前8名入围,决赛将评选出SQL大师!

NineData

质变科技 AI-ready Data Cloud|如何构建 Auto Table Service 保证高性能查询

AI数据云Relyt

数据库 大数据 数据仓库 数据湖

DeepMind新发布的聊天机器人很不错,但还有改进空间_AI&大模型_TASMIA ANSARI_InfoQ精选文章