写点什么

谷歌发布自然语言平台 LaMDA,新的基于 AI 的对话技术 | Google I/O 2021

  • 2021-05-19
  • 本文字数:1807 字

    阅读完需:约 6 分钟

谷歌发布自然语言平台 LaMDA,新的基于AI的对话技术 | Google I/O 2021

美国时间 5 月 18 日,Google I/O 2021开发者大会正式开幕。去年,该会议因疫情取消,今年重新恢复并采用全程线上的形式,对所有开发者免费开放。在刚刚结束的主题演讲中,谷歌发布了 TPU V4 人工智能芯片、自然语言平台 LaMDA 以及一系列原有产品的更新升级。本文,我们将详细介绍谷歌翻译和自然语言平台 LaMDA 的主要特点。


谷歌总是对语言情有独钟。早期,谷歌就着手建立了翻译网络。近年来,谷歌开始利用机器学习技术更好地理解搜索查询的意图。随着时间的推移,谷歌在这些领域取得的进展使得用书面和口头语言组织和获取大量信息变得更加容易。



但是,技术总有改进的空间。语言具有显著的细微差别和适应性。它可以是字面的,也可以是语音的;可以是华丽的,也可以是朴素的;可以是创意性的,也可以是信息性的。这种多功能性使得语言成为人类最伟大的工具之一,也是计算机科学最难解决的问题之一。

 

作为最新的研究突破, LaMDA 为这个难题中最吸引人的部分增加了一些内容:对话。



尽管对话往往围绕特定主题进行,但是对话的开放性意味着对话可以从一个地方开始,到另一个完全不同的地方结束。和朋友聊到一个电视节目,可能会演变成一场关于这个节目拍摄国家的讨论,然后转而讨论这个国家最好的地方美食。

 

这种特性很快就会让现代对话智能体(通常被称为聊天机器人)陷入困境,因为它们经常遵循狭窄的预定路径。但是 LaMDA(Language Model for Dialogue Applications 的缩写,意为“对话应用语言模型”)能够以一种自由流动的方式讨论无止境的主题,我们认为,这一能力可以使与技术的交互更加自然,并提供一种全新类别的应用程序。

通向 LaMDA 的路道阻且长

 

LaMDA 的对话技能已经酝酿多年。与包括 BERT 和 GPT-3 在内的许多最新语言模型一样,它建立在 Transformer 上,这是由谷歌研究院发明并于 2017 年开源的一个神经网络架构。由这个架构生成的模型可以训练阅读许多单词(例如,一个句子或段落),注意这些单词之间的关系,然后预测它认为接下来会出现什么单词。

 

但与其他大多数语言模型不同的是,LaMDA 接受的是对话训练。在训练过程中,它发现一些区别于其他语言形式的开放式对话的细微差异。合理性是其中的一个细微差异。基本上是这样:对特定对话环境的反应是否具有意义?举例来说,如果有人说:

 

“I just started taking guitar lessons.”

 

你也许希望别人会这样回答:

 

“How exciting! My mom has a vintage Martin that she loves to play.”

 

从最初的陈述来看,这种回应是有意义的。但合理并非良好反应的唯一因素。毕竟,“that's nice” 这句话几乎是对任何陈述句的合理回应,正如 “I don't know” 是对大多数问题的合理回应一样。令人满意的答复通常也是具体的,与对话的上下文密切相关。在上面的例子中,回应是合理且具体的。

 

LaMDA 建立在谷歌 2020 年发表的早期研究之上,该研究表明,基于 Transformer 的语言模型经过对话训练,可以学会谈论几乎任何事情。此后,我们还发现,一旦经过训练,LaMDA 可以进行微调,从而大幅提高其反应的合理性和特异性。

 

目前还处于早期发展阶段,我们希望不久能有更多分享,但是合理性和特异性并非我们在 LaMDA 这样的模型中所寻求的唯一特性。通过评估回应是有洞察力的、意想不到的还是机智的,我们也在探索像“趣味性”这样的维度。谷歌也非常关注事实性(即 LaMDA 是否坚持事实,这是语言模型经常遇到的问题),并且正在研究如何确保 LaMDA 的反应不仅有说服力,而且正确。

 

但对于我们的技术,我们会问自己一个最重要的问题,那就是它们是否符合我们的人工智能原则。文字可能是人类最伟大的工具之一,但是和其他一切工具一样,它也会被滥用。这种滥用可以通过受过语言训练的模型来传播,例如,把偏见内化,反映出仇恨的言论,或者复制误导信息。尽管模型所训练的语言已经被仔细地审查过了,但模型本身仍有被滥用的危险。

 

在创建 LaMDA 这样的技术时,我们的首要任务是努力确保将这种风险降至最低。由于我们多年来致力于研究和发展这些技术,所以我们对机器学习模型所涉及到的问题非常熟悉。正因为如此,我们建立并开源资源和数据,让研究人员可以用来分析模型和训练模型;我们在 LaMDA 开发的每一个步骤都仔细检查过;我们承诺在更多产品中增加对话能力,所以我们会继续这样做。

 

作者介绍:

 

Eli Collins,谷歌产品管理副总裁。Zoubin Ghahramani,谷歌高级研究总监。

 

原文链接:

 

https://www.blog.google/technology/ai/lamda

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2021-05-19 10:534532

评论 1 条评论

发布
用户头像
期待中文版的LaMDA,但是觉得很悬,因为汉语太不严谨了,非常开放。拭目以待吧。
2021-05-20 08:13
回复
没有更多了
发现更多内容

关于Linux中作业调度 crond 和 systemd.timer 使用场景

山河已无恙

Linux Kenel 12月月更

程序员,阿里P8java大神讲的Spring大家族原理汇总,你确定不看?

钟奕礼

Java java面试 java编程 程序员‘

要不要开通个人养老金账户?

石云升

投资理财 个人养老金

实时数据赋能制造业产能升级:详解半导体和汽车制造行业最佳实践(活动报名)

tapdata

制造业 数据集成 汽车制造 实时数据 半导体行业

java面试官:程序员,请你告诉我是谁把公司面试题泄露给你的?

钟奕礼

Java 程序员 java面试 java编程

[信息抽取]基于ERNIE3.0的多对多信息抽取算法:属性关系抽取

汀丶人工智能

自然语言处理 信息抽取 12月日更 关系抽取 12月月更

iMazing2023全新版下载安装使用介绍

茶色酒

imazing2023

Centos7.x部署K8S集群 (基于containerd 运行时)

蜗牛也是牛

黑盒测试 vs 白盒测试

agnostic

测试 黑盒测试 白盒测试

模块一作业

Ryan

架构

Flink on Yarn三部曲之二:部署和设置

程序员欣宸

flink YARN 12月月更

运维进阶训练营 -W06H

赤色闪电

运维

2022-12-03:部门工资最高的员工。以下数据Max 和 Jim 在 IT 部门的工资都是最高的,Henry 在销售部的工资最高。sql语句如何写? 输出结果如下: department emp

福大大架构师每日一题

数据库 福大大

Flink on Yarn三部曲之三:提交Flink任务

程序员欣宸

flink YARN 12月月更

关于Linux下Mysql集群同步(主从、一主多从、主从从)部署及同步策略的一些笔记

山河已无恙

12月月更

Spotify高质量工程生产力实践

俞凡

DevOps 大厂实践 spotify 质量工程

问题处理,可别头疼医头脚疼医脚

靠谱的程序员

接口隔离原则介绍

杨充

Flutter — 仅用三个步骤就能帮你把文本变得炫酷!

编程的平行世界

flutter android

基础篇之图形学

邱学喆

图形

Python程序打包

ITCamel

PyQt5 Python打包 打包exe

AngularJS进阶(十七)在AngularJS应用中集成微信认证授权遇到的坑

No Silver Bullet

AngularJS 12月月更 微信认证授权

AngularJS进阶(十九)在AngularJS应用中集成百度地图实现定位功能

No Silver Bullet

定位 百度地图 AngularJS 12月月更

AngularJS进阶(二十)HTML5实现获取地理位置信息并定位功能

No Silver Bullet

H5 AngularJS 12月月更 地理位置

MySQL锁,锁的到底是什么?

蝉沐风

MySQL innodb MVCC

关于Linux中通过 Systemd.Path监听配置文件更新自动重启服务的一些笔记

山河已无恙

12月月更

嵌入式系统软件架构

timerring

嵌入式 12月月更

微服务的冷热部署

穿过生命散发芬芳

微服务 12月月更

【愚公系列】2022年12月 微信小程序-Behavior

愚公搬代码

12月月更

Camtasia2023录屏和剪辑合一的软件

茶色酒

Camtasia2023

自制操作系统番外:编程语言中变量是如何存储的

编程语言

谷歌发布自然语言平台 LaMDA,新的基于AI的对话技术 | Google I/O 2021_AI&大模型_谷歌官方博客_InfoQ精选文章