亮网络解锁器,解锁网络数据的无限可能 了解详情
写点什么

在输掉 ChatGPT 首战前,谷歌的 AIGC 战略是什么?

  • 2023-02-10
    北京
  • 本文字数:2445 字

    阅读完需:约 8 分钟

在输掉ChatGPT首战前,谷歌的AIGC战略是什么?

2022 年是生成式人工智能的重要一年。大型语言模型在生成文本和软件代码方面继续取得进展。与此同时,随着 DALL-E 2、Imagen 和 Stable Diffusion 等模型的引入,我们已经看到了文本到图像生成器的巨大进步。


这一年还标志着生成式人工智能模型的产品化进程加快。生成式模型的科学和技术正在成熟到能够解决实际问题的程度。现在,像微软和谷歌这样的公司正在寻找方法,在一个可能改变创造力未来的新形成的市场中占据领先地位。


此前,在 AI@ '22 会议上,谷歌展示了其在产品中利用生成模式的路线图。该公司的战略可能预示着该领域的发展方向,以及未来竞争格局可能发生的变化。

谷歌的生成式模型


谷歌 Parti 使用 Transformer 从文本标记创建图像(来源:Youtube)


在 AI@ '22 上,谷歌研究院的首席科学家 Douglas Eck 列出了谷歌目前在四个领域对生成式模型的研究:文本、源代码、音频、图像和视频。


谷歌目前正在所有这些领域开展测试项目,着眼于在未来创造产品。Wordcraft Writers Workshop 是一个帮助作家从大型语言模型中获得写作帮助的项目。谷歌开发了 Wordcraft,这是一款使用语言模型 LaMDA 的工具,根据用户提供的提示生成写作。该工具被设计为在一个迭代的过程中使用该模型,在这个过程中,人类作家和 LLM 互动,共同创造故事。


“使用 LaMDA 来编写完整的故事是一条死胡同。当它被用来添加情趣,添加到一个特定的角色或加强故事的一个方面时,它是一个更有效的工具,”Eck 说。“用户界面也必须正确。Wordcraft 工具从一开始就被设计为使作家能够与生成模型进行互动。”


学习代码是一个使用 LLM 为开发人员生成代码建议的项目。谷歌目前正在内部测试该工具,其中包括单行和多行代码完成建议。


AudioLM 使用语言模型来生成音频。该模型将一个音频样本作为输入并继续进行。它可以用来生成音乐和语音。


也许 Eck 在 AI@ '22 上展示的最先进的模型是文本到图像模型 Imagen 和 Parti。Imagen 的工作方式类似于 OpenAI 的 DALL-E 2,使用扩散模型将语言嵌入到图像中。Parti 使用 Transformer 架构,从文本标记中生成图像。DreamBooth 是一个模型,可以调整像 Imagen 这样的文本到图像生成器,在不同的背景下显示一个主题。而 DreamFusion 将扩散模型的力量与神经辐射场(neural radiance fields,NeRF)相结合,这是一种深度学习架构,可以从 2D 图像中创建 3D 模型。


谷歌 DreamBooth 对生成式模型进行了微调,以在不同的上下文中显示特定的主题。


Eck 还展示了谷歌在视频生成方面的研究预览,包括 Imagen Video 和 Phenaki。ImageVideo 使用扩散模型来创建一系列高分辨率图像,这些图像可以缝合在一起来创建视频。Phenaki 基于 Transformer 架构,将一系列文本提示转换为一系列图像。Eck 还展示了如何将 Imagen Video 和 Phenaki 结合起来,从提示序列中创建高分辨率视频。

谷歌的生成式模型的战略


Eck 在整个演讲中明确表示,生成式模型并不是意味着自动化或取代人类的创造力。


“这不再是创造一幅真实画面的生成式模型,这是关于制作你自己创造的东西,”Eck 说,“技术应该服务于我们的需要,即对我们所做的事情拥有代理权和创造性的控制。”


他在讨论谷歌的“负责任的人工智能”战略时,进一步强调了这一点,并在演讲结束时说:“创造力是使我们所有人成为人类的一个重要部分。我认为,当我们开发这些人工智能系统时,必须牢记这一点。”


除了这种言论的公关方面,即旨在缓解公众对生成式人工智能模型取代人类创造力的担忧(这在很大程度上被夸大了),对控制的强调还具有引导该领域走向以人为本的人工智能的积极影响。人工智能系统的设计方式应该提供透明度和控制,以增强人类的能力。如果没有人类的控制和监督,像生成式模型这样的人工智能系统将表现不佳,因为它们不像我们人类那样掌握基本概念。

谷歌能在生成式人工智能领域展开竞争吗?


人工智能研究和产品化之间的差距可能非常难以弥补。当然,谷歌的 LLM 和文本到图像模型的质量并不比 OpenAI 的 GPT-3 和 DALL-E 2 差。但问题是,谷歌能否基于这些模型推出一款成功的产品?


在考虑将一项技术产品化时,有几个方面需要考虑。该技术是否会成为一个新产品的基础?如果不是,它是否会被整合到现有产品中?它解决的是什么问题,目前存在的替代解决方案是什么?该产品是否提供了足够的附加值来说服用户转换?它能否帮助巩固公司在现有市场的地位?


自然地,公司会试图达到容易实现的目标,也就是把技术带到他们已经擅长的市场。在写作领域,微软已经领先于谷歌。Office 365 比 G Suite 拥有更大的市场份额,微软在将 LLMs 集成到其产品中方面已经领先一步。


微软在编码方面也有领先优势,其 GitHub Copilot 和 Codex 已经处于生产模式,而谷歌的内部代码生成工具还没有进入生产模式。谷歌最受欢迎的开发工具是 Colab 和 Android Studio,这将为其提供一个测试的场所,让谷歌在准备就绪时测试并推出自己的代码人工智能。但这些 IDE 的市场份额无法与微软的 Visual Studio Code 和 GitHub Codespaces(也归微软所有)相提并论。


在图像、视频和音频领域,我认为 Adobe 将是生成式人工智能的赢家。Adobe 已经拥有最大的市场份额和成熟的工具,这些工具正在定期更新人工智能功能。而且,Adobe 已经在其工具套件中尝试使用生成式人工智能工具。


然而,这并不意味着现任者一定会在生成式人工智能领域占据主导地位。目前,我们正从我们今天使用的工具的角度来看待生成式模型,如文字处理器、IDE 和图像编辑应用程序。基本上,我们正在研究生成式模型如何能够自动化或改进我们已经在做的任务(完成我们的句子,编写代码块,编辑或生成照片,等等)。当我们创造新的工具系统和工作流程时,人工智能的真正潜力将得到充分发挥,这些系统可以充分利用生成模型日益增长的能力和人工智能的其他进步,以完全不同的方式做事(我有一些想法,我将在未来详细阐述)。


正如谷歌重塑了信息发现,亚马逊随着网络的普及重塑了购物模式一样,那些发现并拥抱人工智能新机遇的公司,必将改造现有市场或创造新的市场。


作者简介:

Ben Dickson,软件工程师,也是 TechTalks 创始人,撰写关于科技、商业和政治的文章。


原文链接:

https://bdtechtalks.com/2022/11/07/google-generative-ai-strategy/

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-02-10 14:485797

评论

发布
暂无评论
发现更多内容

福建省等保测评机构有哪几个?机构名称叫什么?

行云管家

网络安全 等保 等级保护 等保测评

Spring Boot 最核心的 25 个注解,都是干货!

CRMEB

Rainbond通过插件整合ELK/EFK,实现日志收集

北京好雨科技有限公司

Kubernetes PaaS ELK Stack rainbond

低成本、低功耗、小体积433MHz数字量无线控制器

不脱发的程序猿

DIY 无线通信 智能硬件 创客开发

ShardingSphere Mode 模式新起航:运行模式详解

SphereEx

开源 ShardingSphere SphereEx 运行模式 分布式治理

都在说边缘计算,它到底是用来干啥的?

火山引擎边缘云

云计算 边缘计算 虚拟化 算力

从0到1带你深入理解log4j2漏洞

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 安全漏洞

安全的IT自动化运维工具用什么好?可以节省时间吗?

行云管家

IT运维 自动化运维

敏捷、协作与研发管理

LigaAI

敏捷 研发效能 SaaS 内容合集 技术专题合集

淘特 Flutter 流畅度优化实践

阿里巴巴终端技术

flutter 移动端 flutter 调试工具

几个超火的编程网站,别错过!

程序员鱼皮

CSS JavaScript html 前端 后端

从元宇宙到平行员工,人工世界推动的虚实分工利好RPA

王吉伟频道

RPA 机器人流程自动化 元宇宙 人机协作 虚实分工

蚂蚁自研移动端 xNN-OCR 技术演进与能力开放

阿里巴巴终端技术

OCR 移动端 端智能

物联网资产管理系统解决方案

低代码小观

物联网 资产管理 CRM 企业管理系统 CRM系统

ClickHouse 存算分离架构探索

Juicedata

hdfs Clickhouse 分布式文件系统 云储存

从产品角度探索采控的快速交付

鲸品堂

交付工具

新一代人工智能院士高峰论坛-视觉预训练大模型及其在智慧城市中的应用分论坛顺利举办

OpenI启智社区

人工智能 智慧城市 预训练大模型

第一财经年终总结

石云升

读书笔记 28天写作 12月日更

前端规范落地,团队级的解决方案

德育处主任

前端 代码规范 规范 eslint git规范

龙蜥操作系统通过工信部电子标准院首批开源项目成熟度评估

OpenAnolis小助手

国产操作系统 龙蜥社区

首颗云原生边缘计算卫星升空,与KubeEdge一起探索“智慧太空”

科技热闻

绩效评估的why&how

mtfelix

28天写作

助力前端开发的 5 个实用网站

开源之巅

前端 提升能力

性能工具之15个常用的Linux文件系统命令

zuozewei

Linux Shell 12月日更

openEuler高琨:积极推动开源合规 助力供应链安全

科技热闻

57 K8S之自动弹性缩放

穿过生命散发芬芳

k8s 28天写作 12月日更

通过 LSM 架构设计一个数据库引擎

码哥字节

数据库 LSM树

【大咖说*数据Cool谈——数据库寻路,开源有态度】

大咖说

开源 大咖 #数据库

Java&Go三种HTTP服务端端性能测试

FunTester

性能测试 Fasthttp 测试框架 FunTester HTTP服务

接口文档Swagger接入统一授权中心IdentityServer4

为自己带盐

swagger dotnet 28天写作 12月日更

语音信号的频域分析

轻口味

28天写作 12月日更

在输掉ChatGPT首战前,谷歌的AIGC战略是什么?_文化 & 方法_Ben Dickson_InfoQ精选文章