写点什么

谷歌深夜祭出 Gemini 2.0 “硬刚”OpenAI,还让开发者免费试用!Agent 时代最强 AI 模型登场了?

  • 2024-12-12
    北京
  • 本文字数:2777 字

    阅读完需:约 9 分钟

大小:1.34M时长:07:47
谷歌深夜祭出Gemini 2.0 “硬刚”OpenAI,还让开发者免费试用!Agent时代最强AI模型登场了?

就在 OpenAI“12 天连续轰炸”的第五天,谷歌终于坐不住了。

 

刚刚,谷歌正式发布了 Gemini 2.0 系列人工智能模型的首个版本,该模型名为 Gemini 2.0 Flash,提供聊天版本供全球用户使用,同时还有一个实验版的模型可供开发人员免费使用,该版本具有文本转语音和图像生成功能。


据谷歌称,这是 Agent 时代迄今为止为最强大的 AI 模型,相比上一代 Gemini 模型,2.0 在速度上快两倍,并且比更大的“专业”版 Gemini 1.5 更加强大。此外,该版本带来了增强的性能、更多的多模态性和新的原生工具。

相比上一代模型,Gemini 2.0 增加了什么?

 

谷歌首席执行官 Sundar Pichai 在一份声明中表示:“如果 Gemini 1.0 致力于组织和理解信息,那么 Gemini 2.0 则致力于让信息变得更加有用。”



谷歌最新的大语言模型在大多数用户请求领域都比其前代产品表现更好,例如代码生成和根据用户请求提供事实正确响应的能力。

 

在谷歌 DeepMind CEO Demis Hassabis 和谷歌 DeepMind CTO Koray Kavukcuoglu 代表 Gemini 团队撰写的博文中,详细介绍了 Gemini 2.0 版本的具体特性。

 

据他们称,Gemini 2.0 Flash 以 1.5 Flash 的成功为基础,是谷歌目前最受开发者欢迎的版本,在同样快速的响应时间下具有增强的性能。值得注意的是,2.0 Flash 在关键基准测试中甚至比 1.5 Pro 更快,速度是 1.5 Pro 的两倍。2.0 Flash 还具有新功能。除了支持图像、视频和音频等多模式输入外,2.0 Flash 现在还支持多模式输出,例如与文本混合的原生生成的图像和可操纵的文本转语音 (TTS) 多语言音频。它还可以原生调用 Google 搜索、代码执行以及第三方用户定义函数等工具。



过去一个月,Gemini 团队一直在分享 Gemini 2.0 的早期实验版本,并得到了开发人员的积极反馈。

 

Gemini 2.0 Flash 现已作为实验模型通过 Google AI Studio 和 Vertex AI 中的 Gemini API 向开发者提供,所有开发者均可使用多模式输入和文本输出,早期合作伙伴可使用文本转语音和原生图像生成功能。

 

1 月份将全面上市,同时将推出更多模型尺寸。为了帮助开发人员构建动态和交互式应用程序,谷歌还发布了新的 Multimodal Live API,它具有实时音频、视频流输入以及使用多个组合工具的能力。

 

要访问实验版本 Flash 2.0 的聊天优化版本,Gemini 用户可以在桌面和移动网络上的模型下拉菜单中选择它。该公司表示,它将很快在 Gemini 移动应用程序上提供。

 

Gemini Flash 2.0 的多模版本将通过 Google 的 AI Studio 和 Vertex AI 开发者平台提供。

 

该公司还表示,计划在 2025 年初将 Gemini 2.0 扩展到更多谷歌产品。

推出 Deep Search 新功能

 

谷歌此次发布的还不仅仅是大模型。谷歌宣布将推出一项名为Deep Research的新功能,它使用高级推理和长上下文功能充当研究助手,探索复杂主题并代表用户编写报告。它今日起已经 Gemini Advanced 中可用。

 

据谷歌方面称,Search 无疑是受到人工智能影响最深远、变革最显著的产品。如今,AI Overviews 已触达 10 亿用户,该功能使用户能够提出全新的问题类型,迅速成为 Search 有史以来最受欢迎的功能之一。接下来,谷歌会将 Gemini 2.0 的高级推理能力融入 AI Overviews,以攻克更复杂的主题和多步骤问题,包括高等数学方程、多模态查询和编码。同时,谷歌还计划明年将 AI Overviews 功能面向更多国家开放,适配更多语言。

 

 

2.0 基于谷歌定制的硬件第六代 TPU Trillium 构建而成。TPU 为 Gemini 2.0 的训练和推理提供 100% 算力支持,今天 Trillium 也全面向用户开放,以便他们能够基于此进行开发。

通过 Gemini 2.0 解锁 Agent 体验

 

Gemini 2.0 Flash 已经进行了原生用户界面操作能力的改进,其他改进还包括多模式推理、长上下文理解、复杂指令跟踪和规划、组合函数调用、原生工具使用和改进的延迟等。

 

自大模型诞生以来,AI Agent 的实际应用是一个非常火爆的研究领域。谷歌正在通过一系列原型探索这一新领域,这些原型可以帮助人们完成任务并完成工作。其中包括对 Project Astra 的更新,这是谷歌的研究原型,旨在探索通用人工智能助手的未来功能;新 Project Mariner,它从浏览器开始探索人机交互的未来;以及 Jules,一个可以帮助开发人员的 AI 代码 Agent。

 

Gemini API 集团产品经理 Shrestha Basu Mallick 和谷歌实验室产品总监 Kathy Korevec 表示:“从今天开始(对于受信任的测试人员),你可以将 Python 和 JavaScript 编码任务转移给 Jules。Jules 可以异步工作并与你的 GitHub 工作流程集成,处理错误修复和其他耗时任务,而你则专注于你真正想要构建的内容。

 

谷歌也表示,即便技术持续迭代,但 Gemini 系列模型仍处于开发的早期阶段,他们很高兴看到那些值得信赖的测试人员如何使用这些新功能以及他们可以从中学到什么经验,这样就可以在未来的产品中更广泛地使用它们。

 

硬刚一众 AI 独角兽,谷歌更胜一筹?

 

Gemini 2.0 是谷歌在科技行业日益激烈的人工智能竞赛中的最新成果。谷歌正在与科技巨头微软、Meta 以及一众 AI 明星独角兽如 OpenAI、Perplexity 和 Anthropic 等初创公司展开激烈战争。

 

谷歌这一波出手在技术社区引发了热议,一名 Reddit 用户对 Gemini 2.0 的发布表示震惊,他评论道:

 

“我不知道我现在的感受是什么。兴奋、担忧、不安、好奇以及对 AI 的绝对敬畏交织在一起。超现实的是,我们正在经历这种改进,并且每次发布的迭代都给我们留下了深刻的印象。我甚至都不敢想象 10 年后的情况。看看 2004 年到 2014 年的科技各个方面都取得了巨大进展,但与这两年 AI 势头相比还有很大差距。”

 

有用户调侃,谷歌甚至都等不及 OpenAI 把“疯狂发布周”过完再来炸场,结合前两日 Sora 潦草发布,有不少网友直接站队谷歌:

 

“谷歌的 Gemini 绝对是是 GPT-5 级别的威胁,我从未见过一家公司发布如此强大的模型让开发者免费试用。”

 

随着新 Flash 模型的发布,这场 AI 军备竞赛已经进入白热化阶段。据谷歌公司称,Agent 模型“可以更好地了解你周围的世界,提前思考多个步骤,并在你的监督下代表你采取行动。”

 

上周,在《纽约时报》 DealBook 峰会上与安德鲁·罗斯·索尔金 (Andrew Ross Sorkin) 的对话中,谷歌 CEO 皮查伊对微软的人工智能进步提出了质疑,表示他“很乐意在任何时候”对两家公司的模型进行并排比较。

 

安德鲁·罗斯·索尔金问皮查伊:“相对于其他参与者,你认为自己处于什么位置?”

 

皮查伊表示他很想进行并排比较,随后他补充道:“他们使用了别人的模型。”

 

“你这是在向我发起挑战。”索金回答道。

 

皮查伊笑着摇了摇头,补充道:“我只是——我非常尊重他们和他们的团队。” 

 

微软当家人纳德拉对于谷歌技术实力也给予了很高的肯定。

 

早在今年 3 月份,微软 CEO 纳德拉在挪威银行投资管理播客上表示:“谷歌本应就是大型科技公司 AI 竞赛的默认赢家。谷歌是一家非常有能力的公司,他们既有人才,又有计算能力。他们是这个领域的垂直整合参与者。他们拥有从数据到芯片到模型到产品和分销的一切。”

2024-12-12 07:0012569
用户头像
李冬梅 加V:busulishang4668

发布了 1225 篇内容, 共 841.4 次阅读, 收获喜欢 1320 次。

关注

评论

发布
暂无评论
发现更多内容

社区知识库|常见问答 FAQ 集合第 4 期:消息保留及延迟、Broker、Pulsar 权限等相关问题

Apache Pulsar

架构 云原生 开源社区 消息中间件 Apachepulsar

博文推荐|深入解析Apache BookKeeper 系列:第一篇 — 架构原理

Apache Pulsar

开源 架构 云原生 中间件 Apache Pulsar

低代码实现探索(二十四)业务的领域可视化构思

零道云-混合式低代码平台

Linux之date命令

入门小站

Linux

(1-15/15) 预训练模型+微调范式下如何做到文本数据安全

mtfelix

300天创作 2022Y300P

HarmonyOS工程【鸿蒙开发02】

坚果

鸿蒙开发 1月月更

模块 5 作业

miliving

从零开发区块链应用(一)--golang配置文件管理工具viper

杰哥的技术杂货铺

golang 区块链

从零开发区块链应用(二)--mysql安装及数据库表的安装创建

杰哥的技术杂货铺

Spring中部署Activiti流程定义的三种姿势

华为云开发者联盟

spring 工作流 Activiti流程 Activiti框架 Activiti Explorer

只有天空才是你的极限,我们热爱探索的过程并沉浸其中丨图数据库 TiMatch 团队访谈

PingCAP

博文推荐|Apache Pulsar: 统一消息流平台

Apache Pulsar

开源 云原生 broker Apache Pulsar 消息中间件

社区知识库|常见问答 FAQ 集合第 3 期:Topic 数量、Broker 设置等相关问题

Apache Pulsar

分布式 云原生 Apache Pulsar 开源社区 消息中间件

SIG技术直播来了!技术专家教你,如何使用 iLogtail 采集可观测数据?

OpenAnolis小助手

Linux 开源 数据 直播 采集

带你读AI论文丨RAID2020 Cyber Threat Intelligence Modeling GCN

华为云开发者联盟

网络威胁情报 CTI 异构信息网络 GCN HINTI

从零开发区块链应用(四)--自定义业务错误信息

杰哥的技术杂货铺

2022AJAX常见面试题分享

编程江湖

ajax

谈A股投资策略--《香帅中国财富报告》摘录(5/100)

hackstoic

投资

社区知识库|常见问答 FAQ 集合第 2 期:Topic 配置、ACK 等问题的解决

Apache Pulsar

架构 云原生 Apache Pulsar 开源社区 消息中间件

Tcp网络模型

你?

web技术分享| 白板SDK之函数和方程式的运用

anyRTC开发者

前端 音视频 视频会议 白板 web技术分享

详解 Flink 中 Time 与 Window

五分钟学大数据

flink 1月月更

从零开发区块链应用(三)--mysql初始化及gorm框架使用

杰哥的技术杂货铺

鸿蒙开发初体验【鸿蒙01】

坚果

鸿蒙 1月月更

ReactNative进阶(二十四):react-native-scrollable-tab-view 标签导航器组件详解

No Silver Bullet

1月月更 ReactNative 标签导航

Spring的底层实现机制

编程江湖

Spring JPA

Go 语言快速入门指南:Go 结构体

宇宙之一粟

Go 语言 结构体 1月月更

设计模式【11】-- 搞定组合模式

秦怀杂货店

Java 组合模式

1月月更|推荐学java——Spring集成MyBatis

逆锋起笔

mybatis ssm Spring Framework spring aop spring+mybatis

HTTP跨域小结

wong

nginx HTTP cros

Form 表单在数栈的应用(下):深入篇

袋鼠云数栈

前端

谷歌深夜祭出Gemini 2.0 “硬刚”OpenAI,还让开发者免费试用!Agent时代最强AI模型登场了?_Google_李冬梅_InfoQ精选文章