AICon 上海站|日程100%上线,解锁Al未来! 了解详情
写点什么

在输掉 ChatGPT 首战前,谷歌的 AIGC 战略是什么?

  • 2023-02-10
    北京
  • 本文字数:2445 字

    阅读完需:约 8 分钟

在输掉ChatGPT首战前,谷歌的AIGC战略是什么?

2022 年是生成式人工智能的重要一年。大型语言模型在生成文本和软件代码方面继续取得进展。与此同时,随着 DALL-E 2、Imagen 和 Stable Diffusion 等模型的引入,我们已经看到了文本到图像生成器的巨大进步。


这一年还标志着生成式人工智能模型的产品化进程加快。生成式模型的科学和技术正在成熟到能够解决实际问题的程度。现在,像微软和谷歌这样的公司正在寻找方法,在一个可能改变创造力未来的新形成的市场中占据领先地位。


此前,在 AI@ '22 会议上,谷歌展示了其在产品中利用生成模式的路线图。该公司的战略可能预示着该领域的发展方向,以及未来竞争格局可能发生的变化。

谷歌的生成式模型


谷歌 Parti 使用 Transformer 从文本标记创建图像(来源:Youtube)


在 AI@ '22 上,谷歌研究院的首席科学家 Douglas Eck 列出了谷歌目前在四个领域对生成式模型的研究:文本、源代码、音频、图像和视频。


谷歌目前正在所有这些领域开展测试项目,着眼于在未来创造产品。Wordcraft Writers Workshop 是一个帮助作家从大型语言模型中获得写作帮助的项目。谷歌开发了 Wordcraft,这是一款使用语言模型 LaMDA 的工具,根据用户提供的提示生成写作。该工具被设计为在一个迭代的过程中使用该模型,在这个过程中,人类作家和 LLM 互动,共同创造故事。


“使用 LaMDA 来编写完整的故事是一条死胡同。当它被用来添加情趣,添加到一个特定的角色或加强故事的一个方面时,它是一个更有效的工具,”Eck 说。“用户界面也必须正确。Wordcraft 工具从一开始就被设计为使作家能够与生成模型进行互动。”


学习代码是一个使用 LLM 为开发人员生成代码建议的项目。谷歌目前正在内部测试该工具,其中包括单行和多行代码完成建议。


AudioLM 使用语言模型来生成音频。该模型将一个音频样本作为输入并继续进行。它可以用来生成音乐和语音。


也许 Eck 在 AI@ '22 上展示的最先进的模型是文本到图像模型 Imagen 和 Parti。Imagen 的工作方式类似于 OpenAI 的 DALL-E 2,使用扩散模型将语言嵌入到图像中。Parti 使用 Transformer 架构,从文本标记中生成图像。DreamBooth 是一个模型,可以调整像 Imagen 这样的文本到图像生成器,在不同的背景下显示一个主题。而 DreamFusion 将扩散模型的力量与神经辐射场(neural radiance fields,NeRF)相结合,这是一种深度学习架构,可以从 2D 图像中创建 3D 模型。


谷歌 DreamBooth 对生成式模型进行了微调,以在不同的上下文中显示特定的主题。


Eck 还展示了谷歌在视频生成方面的研究预览,包括 Imagen Video 和 Phenaki。ImageVideo 使用扩散模型来创建一系列高分辨率图像,这些图像可以缝合在一起来创建视频。Phenaki 基于 Transformer 架构,将一系列文本提示转换为一系列图像。Eck 还展示了如何将 Imagen Video 和 Phenaki 结合起来,从提示序列中创建高分辨率视频。

谷歌的生成式模型的战略


Eck 在整个演讲中明确表示,生成式模型并不是意味着自动化或取代人类的创造力。


“这不再是创造一幅真实画面的生成式模型,这是关于制作你自己创造的东西,”Eck 说,“技术应该服务于我们的需要,即对我们所做的事情拥有代理权和创造性的控制。”


他在讨论谷歌的“负责任的人工智能”战略时,进一步强调了这一点,并在演讲结束时说:“创造力是使我们所有人成为人类的一个重要部分。我认为,当我们开发这些人工智能系统时,必须牢记这一点。”


除了这种言论的公关方面,即旨在缓解公众对生成式人工智能模型取代人类创造力的担忧(这在很大程度上被夸大了),对控制的强调还具有引导该领域走向以人为本的人工智能的积极影响。人工智能系统的设计方式应该提供透明度和控制,以增强人类的能力。如果没有人类的控制和监督,像生成式模型这样的人工智能系统将表现不佳,因为它们不像我们人类那样掌握基本概念。

谷歌能在生成式人工智能领域展开竞争吗?


人工智能研究和产品化之间的差距可能非常难以弥补。当然,谷歌的 LLM 和文本到图像模型的质量并不比 OpenAI 的 GPT-3 和 DALL-E 2 差。但问题是,谷歌能否基于这些模型推出一款成功的产品?


在考虑将一项技术产品化时,有几个方面需要考虑。该技术是否会成为一个新产品的基础?如果不是,它是否会被整合到现有产品中?它解决的是什么问题,目前存在的替代解决方案是什么?该产品是否提供了足够的附加值来说服用户转换?它能否帮助巩固公司在现有市场的地位?


自然地,公司会试图达到容易实现的目标,也就是把技术带到他们已经擅长的市场。在写作领域,微软已经领先于谷歌。Office 365 比 G Suite 拥有更大的市场份额,微软在将 LLMs 集成到其产品中方面已经领先一步。


微软在编码方面也有领先优势,其 GitHub Copilot 和 Codex 已经处于生产模式,而谷歌的内部代码生成工具还没有进入生产模式。谷歌最受欢迎的开发工具是 Colab 和 Android Studio,这将为其提供一个测试的场所,让谷歌在准备就绪时测试并推出自己的代码人工智能。但这些 IDE 的市场份额无法与微软的 Visual Studio Code 和 GitHub Codespaces(也归微软所有)相提并论。


在图像、视频和音频领域,我认为 Adobe 将是生成式人工智能的赢家。Adobe 已经拥有最大的市场份额和成熟的工具,这些工具正在定期更新人工智能功能。而且,Adobe 已经在其工具套件中尝试使用生成式人工智能工具。


然而,这并不意味着现任者一定会在生成式人工智能领域占据主导地位。目前,我们正从我们今天使用的工具的角度来看待生成式模型,如文字处理器、IDE 和图像编辑应用程序。基本上,我们正在研究生成式模型如何能够自动化或改进我们已经在做的任务(完成我们的句子,编写代码块,编辑或生成照片,等等)。当我们创造新的工具系统和工作流程时,人工智能的真正潜力将得到充分发挥,这些系统可以充分利用生成模型日益增长的能力和人工智能的其他进步,以完全不同的方式做事(我有一些想法,我将在未来详细阐述)。


正如谷歌重塑了信息发现,亚马逊随着网络的普及重塑了购物模式一样,那些发现并拥抱人工智能新机遇的公司,必将改造现有市场或创造新的市场。


作者简介:

Ben Dickson,软件工程师,也是 TechTalks 创始人,撰写关于科技、商业和政治的文章。


原文链接:

https://bdtechtalks.com/2022/11/07/google-generative-ai-strategy/

2023-02-10 14:486187

评论

发布
暂无评论
发现更多内容

C# 读取文件

青柚1943

二十年CRM市场跌宕起伏,Zoho选择“慢速”奔跑

ToB行业头条

代码质量与安全 | 入门必备:什么是自动化测试?

龙智—DevSecOps解决方案

代码质量 自动化测试 测试质量

鸿蒙开发实例 | 可复用列表项的ListContainer

TiAmo

华为 华为云 云开发 10月月更

React核心技术浅析

夏天的味道123

React

从零到一搭建一个属于自己的博客系统(弍)

木偶

MySQL django 前端 10月月更

React-hooks+TypeScript最佳实战

xiaofeng

React

分布式事务-两阶段提交协议(2PC)

zarmnosaj

10月月更

机器学习在基于 URL 的客户端监控分析中的优化和实践

Shopee技术团队

机器学习 数据分析 url 客户端 数据监控

BizWorks应⽤平台基于KubeVela的实践

阿里云E2企业云服务

阿里云 中台 插件 企业架构和云服务 api 网关

支持随时随地一键开会,华为云会议场景适用性更强!

科技之光

代码质量与安全 | 关于糟糕代码的那些事

龙智—DevSecOps解决方案

代码质量 代码安全

1024,节日快乐

未来智安XDR SEC

分割数组

掘金安东尼

算法 10月月更

1024程序员节开幕,龙蜥多位技术专家参与演讲

OpenAnolis小助手

开源 1024程序员节 龙蜥社区 技术分析 线上活动

什么是高可用?高可用软件哪家好?

行云管家

高可用 高并发 ha

React中常见的TypeScript定义实战

xiaofeng

React

云端协同,打造全场景智能会议,华为云会议更专业“会”更好

科技之光

分布式事务Seata框架的AT模式

C++后台开发

分布式 微服务 后端开发 C++开发 Seata框架

前端食堂技术周刊第 56 期:Solid v1.6.0、2022 State of GraphQL、ViteConf 回放、Lerna v6、SEO 入门指南

童欧巴

TPU演进十年:Google的十大经验教训

OneFlow

人工智能 深度学习 TPU

MDAP:可观测性数据分析平台设计与实践

Shopee技术团队

数据分析 APM 性能 终端 数据监控

命令执行相关的web题

w010w

命令行 CTF 每日一题 10月月更 web基础

为企业远程会议保驾护航,华为云会议安全更有保障!

科技之光

企业上云选择哪家好?为什么?

行云管家

云计算 企业上云 云管理

版本控制 | 游戏开发企业如何高效远程协作?

龙智—DevSecOps解决方案

版本控制 游戏开发 版本管理

RFO SIG:openEuler AWS AMI 制作详解

openEuler

Linux 开源 Kubernetes 云原生 AWS

如何规范App广告的隐私获取,让用户拥有更多知情权?

HarmonyOS SDK

广告sdk

React源码中的dom-diff

夏天的味道123

React

华为云数据库 GaussDB(for MySQL),让企业无忧数据恢复

科技之光

嵌入式 Linux 入门(四、Linux 下的编辑器 — 让人爱恨交加的 vi )

矜辰所致

vim Linux VI 10月月更

在输掉ChatGPT首战前,谷歌的AIGC战略是什么?_文化 & 方法_Ben Dickson_InfoQ精选文章