【ArchSummit】如何通过AIOps推动可量化的业务价值增长和效率提升?>>> 了解详情
写点什么

谷歌的「AI 帝国」

  • 2022-05-13
  • 本文字数:3822 字

    阅读完需:约 13 分钟

谷歌的「AI帝国」

又是一年谷歌 I/O 开发者大会,AI 依旧是绝对的主角。


北京时间 5 月 12 日凌晨,谷歌召开了 2022 年 I/O 开发者大会。会上,谷歌宣布了 AI 技术、硬件、软件等多个领域的重要进展。


谷歌 CEO Sundar Pichai 在开幕式的主题演讲中提到,自谷歌创立 24 年来,谷歌所取得的进步源于多年来对先进技术的投入,从人工智能到为这一切提供动力的技术基础设施。


Sundar Pichai 表示,谷歌的使命是,整合全球信息,供大众使用,使人人受益。谷歌主要通过两种关键方式来推进这一使命的实现:其一,深化对信息的理解,从而将信息转化为知识;其二,推动计算机技术发展,不论大家身在何处,都能方便快捷地获取信息和知识。


在这次 Google I/O 开发者大会上,谷歌发布了在上述两种方式上取得的进展,以及这些进展是怎样确保谷歌的产品惠及大众。


以下为 I/O 开发者大会上,谷歌在 AI 和计算方面的重要技术进展和发布。

AI 技术改进产品

采用 AI 技术改进谷歌的产品,使产品更有帮助,更容易获得,并提供创新的新功能。

更多搜索选项,更多查询自由

多重搜索功能

Google 之所以声名大噪,靠的就是他们标志性的互联网搜索引擎。


2022 年的 I/O 大会并没有带来太多让人眼前一亮的搜索新功能,但新的“我附近的多重搜索”(multi-search near me)功能还是让大家的日常生活更方便了些。


Google 现在允许用户同时搜索图片和文字(例如同时搜索漏水的水龙头图片加上更换配件信息),再过几个月,大家还可以在图片中添加“我附近的”来查询本地可用结果。如果我们在网上看到一道自己不了解的菜肴,只需要配合“我附近的”进行图像多重搜索,就能找到提供这道菜品的当地餐厅。


除此之外,Google 还通过新的“场景内搜索”增强了视觉搜索能力。其功能非常简单:只要在繁忙的场景(例如杂货店过道)中平移相机,就能立即获得关于画面内多个对象的信息。想比较不同品牌的沙拉酱哪个更好吃?完全不成问题。

从 Google 搜索中删除个人信息

Google 还添加了一项早该发布的功能:从 Google 搜索中手动删除个人相关信息。


如果大家曾经在 Google 上搜索过自己的名字,就会惊讶于自己原本有那么多生活细节已经被晒在了网上。在 Google 上,我们往往能轻松找到相应的家庭住址、电话号码等。使用此次新功能,用户可以立即提出删除请求、并随时监控处理状态。虽然还不能保证百分之百成功,但这至少要比完全无法控制个人信息要强得多。

Google 翻译新增了 24 种语言

新增 24 种语言

Google 在今年的 I/O 主题演讲中花了不少篇幅,讨论他们如何适应不同人群的方言和外貌特征。首先,Google Translate 新增 24 种语言,包括首次纳入的盖丘亚语和艾马拉语等美洲土著语言。


现在还有很多语言在互联网上出现得没有那么频繁,翻译这些语言是一个技术难题,因为用来训练翻译模型的文本通常是双语文本,像是同一个短语的英语和西班牙语版本,但并非所有语言都有足量的公开双语文本。


因此,随着机器学习的进步,谷歌开发了一种单语方式,能让翻译模型在从未见过某种新语言的直译版本的情况下,直接去学习翻译此新语言。通过与母语人士及当地机构合作,谷歌发现用单语方式进行的翻译质量达标,谷歌也将进一步提升翻译质量。

十点式肤色量表

除了语种增加之外,Google 还宣布使用哈佛大学教授 Ellis Monk 博士开发的 Monk 十点式肤色量表(MST)提供更多颜色选项。在理想情况下,这份量表已经能够涵盖绝大多数用户需求。Google 已经将其以开源开发工具的形式免费开放。


至于具体显示效果,Google 给出了用例展示,即通过肤色优化 Google Images 中的美妆搜索图像。这样美妆建议就能区分肤色较深和较浅的用户,分别给出不同的妆扮思路。总之,MST 有望为代表性不足的人群提供更好的在线体验。

Google Maps 新升级

AI 为 Google Maps 带来了新的升级。

AI 技术的进步有助于绘制偏远和农村地区的地图

目前,谷歌已在全球绘制了大约 16 亿座建筑和超过 6000 万公里的道路。由于缺乏高质量的图像和清晰的建筑类型和地貌特征,以前一直难以绘制一些偏远地区和农村地区的建筑和道路信息。为了解决这个问题,谷歌使用计算机视觉和神经网络技术,从卫星图像中探测建筑物。自 2020 年 7 月以来,Google Maps 上的非洲建筑物数量增加了 5 倍,从 6000 万幢增加到了近 3 亿幢。

沉浸式视图

Google Maps 在本届大会上迎来了另一项新功能,即沉浸式视图。


与之前就提供的卫星视图相比,沉浸式视图能为用户提供基于不同点位的 3D 俯视图,让人获得亲临现场的感受。这项功能也支持部分室内场景,例如餐厅,可帮助大家在出行前做好功课。


Google 表示,沉浸式视图将在 2022 年底率先于洛杉矶、纽约市、旧金山、东京和伦敦推出。

Google Assistant 可更自然地与你对话

对于喜欢跟智能设备交谈的朋友,Google 带来了针对 Google Assistant 的一系列改进。短期之内,Google 将为 Google Nest Hub Max 智能家居产品推出一项“看和说”新功能。顾名思义,此功能将摆脱“Hey Google”开启的针对性查询,支持设备通过与用户的眼神交流激活语音分析。只要盯着 Nest Hub Max 看,再询问天气状况,大家就能得到想要的答案。


从长远来看,Google 还打算研究如何让智能助手在发现表达失误之后,用更自然的方式推进对话。我们在与智能设备对话时,往往会一时词不达意、或者需要想想具体怎么表述,Google Assistant 应该能够识别出相应的语气特征,在用户思考时不做干扰。

自动生成技术应用于 YouTube

去年,谷歌推出了自动生成的章节,让用户可以更轻松地跳转到最感兴趣的部分。


此外,谷歌现在正在应用 DeepMind 的多模式技术,这项技术可以同时使用文本、音频和视频,并以更高的准确性和更快的速度自动生成章节。因为这个功能,现在的目标是将自动生成章节的视频数量增加 10 倍,从目前的 800 万到明年的 8000 万。


通常,了解视频内容的最快方法是阅读它的脚本,所以谷歌也在使用语音识别模型来转录视频。现在所有 Android 和 iOS 的用户都可以获取视频的脚本。


接下来,谷歌将把 YouTube 上的自动翻译字幕应用到移动设备上。这意味着观众可以获取 16 种自动翻译的视频字幕,创作者也可以借此吸引全球观众。

AI 构建到 Google Workspace 系列产品中

谷歌正在将 AI 构建到 Workspace 系列产品中,以帮助人们提升工作效率。


Google Docs 引入了自动总结功能,将其中一个机器学习模型应用在文本总结功能种,Google Docs 将自动解析单词并提取出要点。这标志着自然语言处理的一个大飞跃。总结需要理解长段落、压缩信息并生成语言,而这些已经超出过去最好的机器学习模型的能力。


此外,团队还将总结功能引入 Google Workspace 的其他产品。在接下来的几个月里,Google Chat 将使用该功能,为聊天对话提供摘要,帮助用户迅速加入群聊,或回顾重点信息。还将把将转录和总结功能引入 Google Meet,这样用户可以快速补上重要会议中错过的部分。

Google Meet 通话 AI 增强

Google 在本届 I/O 上还展示了另外一项不太起眼、但效果拔群的新功能——Google Meet 通话 AI 增强。


Google 凭借先进的机器学习技术增强了用户在网络摄像头中的形象,能够大大改善其他 Google Meet 用户看到的最终画面。之前用过 Google Meet 的朋友肯定或多或少遇到过光照条件不佳、显示效果糟糕的窘境,现在问题终于解决了。当然,最好的办法还是买个补光灯。


此外还为 Google Meet 带来了摄影棚规格的虚拟灯光,可以调整灯光的位置和亮度,用户即使身处黑暗的房间或坐在窗前仍然可以被清晰看到。这项功能正在测试中。

通过计算使知识更易获得

推出生成语言模型 LaMDA 2


谷歌研发的用于对话应有的生成语言模型 LaMDA 的 Demo,以及 AI Test Kitchen,继续提升


人工智能的对话能力。


对话和自然语言处理都能让人们以更简单的方式使用计算机。大型语言模型是实现这一目标的关键。去年,谷歌发布了 LaMDA,这是一个用于对话应用的生成语言模型,可就任何主题展开对话。现在,谷歌公开了 LaMDA 2 —— 目前打造的最先进的对话 AI。

PaLM:5400 亿参数的大型语言模型

为了探索自然语言处理和 AI 的其它方面,谷歌最近还公开了新模型 Pathways Language Model(PaLM)。这是谷歌迄今为止研发的最大规模的模型,基于 5400 亿参数训练而成。


PaLM 在许多自然语言处理任务上都有着不俗的表现,例如从文本生成代码,回答数学问题,甚至解释一个笑话。


“思维提示链”技术让模型能更好地进行推理,给出更准确的答案。“思维提示链”大大提高了 PaLM 的准确性,让它在包括数学问题在内的多个推理基准测试(reasoning benchmarks)中达到了最顶级水平。

推出全世界最大的开放机器学习中心

在基础设施方面创新方面,谷歌宣布 计划向美国各地的数据中心和办公室投资 95 亿美元。谷歌将为 Google Cloud 客户推出全世界最大的开放机器学习中心。


该机器学习中心拥有 8 个 Cloud TPU v4 芯片,是 Google 定制,建在为 Google 最大的神经模型提供支持的网络基础设施之上,能提供接近  9 x 1018  的算力,可以为 Google 的客户提供前所未有的运行复杂模型和工作负荷的能力,希望这将推动医学、物流等领域的创新。

增强现实技术:计算技术新前沿

谷歌在 AR 领域投入颇多:已将 AR 引用到许多产品当中,包括 Google Lens、多重搜索(multisearch)、场景探索(scene exploration)以及 Google Maps 的 Live Views 和沉浸式视图功能。AR 各项性能已应用于手机终端。

小结:

Google I/O 2022 规模浩大、内容无法一一尽数,相信无论您是 Google 铁粉还是普通用户,都能从中找到自己感兴趣的议题。


参考链接:


https://mashable.com/article/google-io-2022-everything-announced


https://mp.weixin.qq.com/s/LROdPhenTe_AIsU88FEXZw

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2022-05-13 23:053314
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 492.2 次阅读, 收获喜欢 1966 次。

关注

评论

发布
暂无评论
发现更多内容

React源码分析6-hooks源码

flyzz177

React

React源码分析5-commit

flyzz177

React

openEuler委员会主席江大勇:激发原创力量,逐梦数智未来

openEuler

数据库 开源 操作系统 openEuler 资讯

对话阿里云叔同:如何看待 2022 年云原生的发展,2023 年有哪些值得关注的技术?

Serverless Devs

阿里云 Serverless 云原生

比 CK 再快 24% ! YMatrix 5.0 SSB 基准测试报告

YMatrix 超融合数据库

Clickhouse 性能基准测试 超融合数据库 YMatrix

ClickHouse 挺快,esProc SPL 更快

陈橘又青

对话开发者:Serverless 落地的困境与破局

Serverless Devs

阿里云 Serverless 云原生

数智化转型进入“精装时代”,容联云助力千行百业加速上云用数赋智

脑极体

Studio One2023终于有了视频支持,可以方便做视频配乐了

茶色酒

Studio One2023

小程序原理之: WXSS 编译

Speedoooo

小程序 小程序技术 小程序编译

一个词语总结2022,你的是什么? | 2022 年度总结

陈言必行

2022年终总结

聊聊降本提效这件事儿

阿里巴巴中间件

阿里云 容器 云原生 中间件 降本增效

ProgressBar(进度条)

攻城狮Wayne

Android Studio 进度条 ProgressBar

LogicFlow安装与准备工作

小鑫同学

前端 vite Vue 3 Vue3 Typescript

2022年中国潮流运动消费发展白皮书

易观分析

运动 潮流运动 潮流

Spring Cloud Alibaba x AppActive 带来的全新异地活动解决方案

阿里巴巴中间件

阿里云 云原生 Spring Cloud Aliababa

重磅 | 九科信息加入深圳市智能制造产业促进会,共促智能制造产业健康发展

九科Ninetech

Guitar Pro2024免费版吉他打谱软件

茶色酒

Guitar Pro8 Guitar Pro2024

《PyTorch 深度学习实战》学习笔记--Mac M1 安装PyTorch2.0

IT蜗壳-Tango

苹果开发者账号可以多人使用吗​​​

雪奈椰子

ios打包

恭喜龙蜥获得中国开源云联盟2022年度中国“最佳开源实践案例”和“杰出开源贡献者”奖项

OpenAnolis小助手

开源 龙蜥社区 COSCL 木兰峰会 中国开源云联盟

2023年,祝你有个好习惯!

石云升

习惯 年终总结 1月月更

Jenkins 项目的 gpg: signing failed: Bad passphrase 错误

HoneyMoose

写了2年文章的我,昨天第一次露脸直播。

王中阳Go

深度思考 高效工作 学习方法 程序员 微服务架构

2022年终总结:一年读完的40本书

石云升

读书笔记 年终总结 1月月更

Jenkins 构建过程中提示 GPG 错误

HoneyMoose

React源码分析7-state计算流程和优先级

flyzz177

React

Postgresql分析慢sql

i查拉图斯特拉如是说

数据库 postgresql db PgSQL PG库

2023-01-09:以下go语言代码输出什么?A:+Inf; B:zero; C:something else; D:doesn‘t compile。 package main import (

福大大架构师每日一题

golang go语言 福大大 选择题

模块五作业

张贺

有什么好用的云渲染?这篇文章给你答案

Renderbus瑞云渲染农场

云渲染 好用的云渲染平台

谷歌的「AI帝国」_AI&大模型_刘燕_InfoQ精选文章