写点什么

谷歌深夜祭出 Gemini 2.0 “硬刚”OpenAI,还让开发者免费试用!Agent 时代最强 AI 模型登场了?

  • 2024-12-12
    北京
  • 本文字数:2777 字

    阅读完需:约 9 分钟

大小:1.34M时长:07:47
谷歌深夜祭出Gemini 2.0 “硬刚”OpenAI,还让开发者免费试用!Agent时代最强AI模型登场了?

就在 OpenAI“12 天连续轰炸”的第五天,谷歌终于坐不住了。

 

刚刚,谷歌正式发布了 Gemini 2.0 系列人工智能模型的首个版本,该模型名为 Gemini 2.0 Flash,提供聊天版本供全球用户使用,同时还有一个实验版的模型可供开发人员免费使用,该版本具有文本转语音和图像生成功能。


据谷歌称,这是 Agent 时代迄今为止为最强大的 AI 模型,相比上一代 Gemini 模型,2.0 在速度上快两倍,并且比更大的“专业”版 Gemini 1.5 更加强大。此外,该版本带来了增强的性能、更多的多模态性和新的原生工具。

相比上一代模型,Gemini 2.0 增加了什么?

 

谷歌首席执行官 Sundar Pichai 在一份声明中表示:“如果 Gemini 1.0 致力于组织和理解信息,那么 Gemini 2.0 则致力于让信息变得更加有用。”



谷歌最新的大语言模型在大多数用户请求领域都比其前代产品表现更好,例如代码生成和根据用户请求提供事实正确响应的能力。

 

在谷歌 DeepMind CEO Demis Hassabis 和谷歌 DeepMind CTO Koray Kavukcuoglu 代表 Gemini 团队撰写的博文中,详细介绍了 Gemini 2.0 版本的具体特性。

 

据他们称,Gemini 2.0 Flash 以 1.5 Flash 的成功为基础,是谷歌目前最受开发者欢迎的版本,在同样快速的响应时间下具有增强的性能。值得注意的是,2.0 Flash 在关键基准测试中甚至比 1.5 Pro 更快,速度是 1.5 Pro 的两倍。2.0 Flash 还具有新功能。除了支持图像、视频和音频等多模式输入外,2.0 Flash 现在还支持多模式输出,例如与文本混合的原生生成的图像和可操纵的文本转语音 (TTS) 多语言音频。它还可以原生调用 Google 搜索、代码执行以及第三方用户定义函数等工具。



过去一个月,Gemini 团队一直在分享 Gemini 2.0 的早期实验版本,并得到了开发人员的积极反馈。

 

Gemini 2.0 Flash 现已作为实验模型通过 Google AI Studio 和 Vertex AI 中的 Gemini API 向开发者提供,所有开发者均可使用多模式输入和文本输出,早期合作伙伴可使用文本转语音和原生图像生成功能。

 

1 月份将全面上市,同时将推出更多模型尺寸。为了帮助开发人员构建动态和交互式应用程序,谷歌还发布了新的 Multimodal Live API,它具有实时音频、视频流输入以及使用多个组合工具的能力。

 

要访问实验版本 Flash 2.0 的聊天优化版本,Gemini 用户可以在桌面和移动网络上的模型下拉菜单中选择它。该公司表示,它将很快在 Gemini 移动应用程序上提供。

 

Gemini Flash 2.0 的多模版本将通过 Google 的 AI Studio 和 Vertex AI 开发者平台提供。

 

该公司还表示,计划在 2025 年初将 Gemini 2.0 扩展到更多谷歌产品。

推出 Deep Search 新功能

 

谷歌此次发布的还不仅仅是大模型。谷歌宣布将推出一项名为Deep Research的新功能,它使用高级推理和长上下文功能充当研究助手,探索复杂主题并代表用户编写报告。它今日起已经 Gemini Advanced 中可用。

 

据谷歌方面称,Search 无疑是受到人工智能影响最深远、变革最显著的产品。如今,AI Overviews 已触达 10 亿用户,该功能使用户能够提出全新的问题类型,迅速成为 Search 有史以来最受欢迎的功能之一。接下来,谷歌会将 Gemini 2.0 的高级推理能力融入 AI Overviews,以攻克更复杂的主题和多步骤问题,包括高等数学方程、多模态查询和编码。同时,谷歌还计划明年将 AI Overviews 功能面向更多国家开放,适配更多语言。

 

 

2.0 基于谷歌定制的硬件第六代 TPU Trillium 构建而成。TPU 为 Gemini 2.0 的训练和推理提供 100% 算力支持,今天 Trillium 也全面向用户开放,以便他们能够基于此进行开发。

通过 Gemini 2.0 解锁 Agent 体验

 

Gemini 2.0 Flash 已经进行了原生用户界面操作能力的改进,其他改进还包括多模式推理、长上下文理解、复杂指令跟踪和规划、组合函数调用、原生工具使用和改进的延迟等。

 

自大模型诞生以来,AI Agent 的实际应用是一个非常火爆的研究领域。谷歌正在通过一系列原型探索这一新领域,这些原型可以帮助人们完成任务并完成工作。其中包括对 Project Astra 的更新,这是谷歌的研究原型,旨在探索通用人工智能助手的未来功能;新 Project Mariner,它从浏览器开始探索人机交互的未来;以及 Jules,一个可以帮助开发人员的 AI 代码 Agent。

 

Gemini API 集团产品经理 Shrestha Basu Mallick 和谷歌实验室产品总监 Kathy Korevec 表示:“从今天开始(对于受信任的测试人员),你可以将 Python 和 JavaScript 编码任务转移给 Jules。Jules 可以异步工作并与你的 GitHub 工作流程集成,处理错误修复和其他耗时任务,而你则专注于你真正想要构建的内容。

 

谷歌也表示,即便技术持续迭代,但 Gemini 系列模型仍处于开发的早期阶段,他们很高兴看到那些值得信赖的测试人员如何使用这些新功能以及他们可以从中学到什么经验,这样就可以在未来的产品中更广泛地使用它们。

 

硬刚一众 AI 独角兽,谷歌更胜一筹?

 

Gemini 2.0 是谷歌在科技行业日益激烈的人工智能竞赛中的最新成果。谷歌正在与科技巨头微软、Meta 以及一众 AI 明星独角兽如 OpenAI、Perplexity 和 Anthropic 等初创公司展开激烈战争。

 

谷歌这一波出手在技术社区引发了热议,一名 Reddit 用户对 Gemini 2.0 的发布表示震惊,他评论道:

 

“我不知道我现在的感受是什么。兴奋、担忧、不安、好奇以及对 AI 的绝对敬畏交织在一起。超现实的是,我们正在经历这种改进,并且每次发布的迭代都给我们留下了深刻的印象。我甚至都不敢想象 10 年后的情况。看看 2004 年到 2014 年的科技各个方面都取得了巨大进展,但与这两年 AI 势头相比还有很大差距。”

 

有用户调侃,谷歌甚至都等不及 OpenAI 把“疯狂发布周”过完再来炸场,结合前两日 Sora 潦草发布,有不少网友直接站队谷歌:

 

“谷歌的 Gemini 绝对是是 GPT-5 级别的威胁,我从未见过一家公司发布如此强大的模型让开发者免费试用。”

 

随着新 Flash 模型的发布,这场 AI 军备竞赛已经进入白热化阶段。据谷歌公司称,Agent 模型“可以更好地了解你周围的世界,提前思考多个步骤,并在你的监督下代表你采取行动。”

 

上周,在《纽约时报》 DealBook 峰会上与安德鲁·罗斯·索尔金 (Andrew Ross Sorkin) 的对话中,谷歌 CEO 皮查伊对微软的人工智能进步提出了质疑,表示他“很乐意在任何时候”对两家公司的模型进行并排比较。

 

安德鲁·罗斯·索尔金问皮查伊:“相对于其他参与者,你认为自己处于什么位置?”

 

皮查伊表示他很想进行并排比较,随后他补充道:“他们使用了别人的模型。”

 

“你这是在向我发起挑战。”索金回答道。

 

皮查伊笑着摇了摇头,补充道:“我只是——我非常尊重他们和他们的团队。” 

 

微软当家人纳德拉对于谷歌技术实力也给予了很高的肯定。

 

早在今年 3 月份,微软 CEO 纳德拉在挪威银行投资管理播客上表示:“谷歌本应就是大型科技公司 AI 竞赛的默认赢家。谷歌是一家非常有能力的公司,他们既有人才,又有计算能力。他们是这个领域的垂直整合参与者。他们拥有从数据到芯片到模型到产品和分销的一切。”

2024-12-12 07:0012220
用户头像
李冬梅 加V:busulishang4668

发布了 1121 篇内容, 共 738.4 次阅读, 收获喜欢 1267 次。

关注

评论

发布
暂无评论
发现更多内容

Microsoft System Center 2022 version 2503 Multilanguage - Windows 服务器管理软件

sysin

Windows Server

YashanDB|执行计划突然变差?小心统计信息时间戳不一致!

数据库砖家

数据库

如何让 MCP 集成 API 更顺畅、无烦恼

数据追梦人

Audition 2025(AU2025)中文直装版-Mac/win

Rose

初学者视角下的思考|YashanDB 安装流程能不能再友好一点?

数据库砖家

数据库

Splunk Enterprise 9.4.2 发布 - 机器数据管理和分析

sysin

Splunk Enterprise

Mermaid代码生成流程图全攻略!办公绘图不要太简单!

职场工具箱

AI 流程图 AIGC Mermaid AI 绘图

YashanDB 在 GIS 领域的实践与优势解析

数据库砖家

数据库

浅析金仓数据库KingbaseES自治事务

金仓技术

KingBase 金仓数据库

YashanDB|OCI 接口快速上手指南:从环境配置到代码实战,一文带你搞定!

数据库砖家

数据库

TextIn MCP Server正式发布,无代码搭建智能文档处理Agent!

合合技术团队

人工智能 算法 #大数据

YashanDB Docker 镜像实践指南:一次配置,多处部署!

数据库砖家

数据库

从 0 到 1 开发梦精灵提示词管理器:我的全栈开发实战记录​

龙正哲

PHP集成开发环境 JetBrains PhpStorm v2025.1.0.1 最新激活秘钥

Rose

程序编程必备工具:SQLPro Studio可视化数据库管理

Rose

在iPhone / iPad上轻松模拟GPS位置AnyGo

Rose

3D动画和视觉特效(VFX) SideFX Houdini for Mac

Rose

PS/LR滤镜插件套装Nik Collection 6安装教程

Rose

Nipper 3.7.0 Windows x64 - 网络设备漏洞评估

sysin

Nipper

DataWorks Copilot 集成 Qwen3-235B-A22B混合推理模型,AI 效能再升级!

阿里云大数据AI技术

Copilot MoE Dataworks MCP Qwen3

本地部署阿里通义千问Qwen3:一键远程访问,还能解决Ollama安全隐患

贝锐

AI 内网穿透 通义千问 Qwen3

苹果Mac截图和屏幕录制工具:CleanShot X

Rose

YashanDB|数据文件损坏怎么查?教你用 dump + rowid 快速定位!

数据库砖家

数据库

安全企业内部im,BeeWorks即时通讯

BeeWorks

即时通讯 IM 私有化部署 企业级应用

老牌原声鼓音源Toontrack EZDrummer for Mac安装教程

Rose

RAG vs. MCP: 你不知道你需要的 AI 充电接口

数据追梦人

2024全新AI脚本插件合集182款

Rose

Microsoft System Center 2025 version 2503 Multilanguage - Windows 服务器管理软件

sysin

Windows Server

2025 简易Scrum指南(简体中文版)

ShineScrum

敏捷

YashanDB|一文读懂 Outline 功能实战验证:绑定、失效、主备、升级全覆盖!

数据库砖家

数据库

初探 YashanDB 共享集群:重新定义高可用数据库的新范式

数据库砖家

数据库

谷歌深夜祭出Gemini 2.0 “硬刚”OpenAI,还让开发者免费试用!Agent时代最强AI模型登场了?_Google_李冬梅_InfoQ精选文章