AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

DeepSeek V3 被“秒”了?谷歌开放最强 Gemini 2.0 全家桶:速度快 60 倍,上下文还长 16 倍!

  • 2025-02-06
    北京
  • 本文字数:3500 字

    阅读完需:约 11 分钟

大小:1.68M时长:09:46
DeepSeek V3 被“秒”了?谷歌开放最强 Gemini 2.0 全家桶:速度快60倍,上下文还长16倍!

昨日夜里,谷歌向所有人发布了 Gemini 2.0——迄今为止谷歌“功能最强大”的人工智能模型套件。

谷歌 Gemini 2.0 向所有人开放

 

去年 12 月,谷歌发布 Gemini 2.0 Flash 的实验版本,正式开启了代理型 AI 的新时代。Gemini 2.0 Flash 是谷歌为开发者群体打造的高效主力模型,具有低延迟、高性能等优势。今年早些时候,谷歌在 Google AI Studio 中更新了 2.0 Flash Thinking Experimental,通过将 Flash 模型的惊人速度与复杂问题的推理能力相结合,进一步提高了性能表现。

 

上周,谷歌面向桌面及移动设备端的全体 Gemini 应用用户发布了 2.0 Flash 更新版本,希望帮助更多人以全新方式使用 Gemini 进行创作、互动和协作。

 

如今,谷歌将通过 Google AI Studio 和 Vertex AI 中的 Gemini API 向公众发布更新之后的 Gemini 2.0 Flash。开发人员现已可以使用 2.0 Flash 模型构建生产级应用程序。



谷歌还发布了 Gemini 2.0 Pro 的实验版本,这是谷歌旗下迄今为止编码性能最强、最善于处理复杂提示词的大模型。除了在 Google AI Studio 和 Vertex AI 当中使用之外,Gemini 2.0 Pro 也将在 Gemini 应用中面向 Gemini Advanced 用户开放。

 

此外,谷歌将在 Google AI Studio 和 Vertex AI 中公开预览迄今为止最具成本效益的模型方案 Gemini 2.0 Flash-Lite。

 

最后,2.0 Flash Thinking Experimental 将被添加在桌面和移动设备端的模型下拉菜单中,以供 Gemini 应用用户随时使用。以上提到的所有发布模型都将支持带有文本输出的多模态输入,且在未来几个月的通用版本中还将支持更多模态。

2.0 Flash:面向全体用户带来更新


Flash 系列模型首度亮相于 I/O 2024 大会,作为一种强大的主力模型广受开发者欢迎。Gemini 2.0 Flash 提供全面的功能,包括原生工具使用、100 万个 token 上下文窗口和多模式输入。它目前支持文本输出,具有图像和音频输出功能,并且计划在未来几个月内全面推出 Multimodal Live API。

 


2.0 Flash 现已在谷歌 AI 产品中面向更多用户正式发布,同时在关键基准测试上的性能也得到了提升。图像生成与文生语音等功能将在不久之后推出。

 

感兴趣的用户可以通过Gemini应用或者 Google AI Studio 及 Vertex AI 中的 Gemini API 立即体验 Gemini 2.0。

2.0 Pro Experimental:谷歌编码性能最好的模型

在分享 Gemini 2.0 早期实验版本(例如 Gemini-Exp-1206)的过程中,谷歌收到了开发人员对其优势及最佳用例(例如编码场景)的极佳反馈。

 

作为对这些反馈的回应,谷歌已经发布 Gemini 2.0 Pro 的实验版本。与之前已经发布的各类大模型相比,Gemini 2.0 Pro Experimental 拥有最强大的编码性能与复杂提示词处理能力,而且可以更好地理解并推理世界知识。该模型配备有谷歌旗下最大的上下文窗口,可容纳 200 万 token,这使其能够全面分析并理解大量信息,并可调用谷歌搜索及代码执行等其他工具。



Gemini 2.0 Pro 现在以实验模型的形式向 Google AI Studio 和 Vertex AI 中的开发者,以及 Gemini Advanced 用户开放。这部分用户可通过桌面及移动设备端的模型下拉菜单立即体验。

2.0 Flash-Lite:谷歌最具性价比的模型


谷歌方面称,此前收到了大量关于 1.5 Flash 模型价格和运行速度的积极反馈,公司一直在保持成本和速度水平的同时不断努力提高模型质量。此次推出的 2.0 Flash-Lite 是一款质量优于 1.5 Flash 的新模型,且继续保持后者的速度和成本优势。2.0 版本在大多数基准测试中均优于 1.5 Flash。

 

与 2.0 Flash 一样,2.0 Flash-Lite 版模型的上下文窗口可容纳 100 万 token 并支持多模态输入。例如,它可以一次性为大约 4 万张不同照片生成单行标题,且此项操作在 Google AI Studio 付费套餐中的成本不到 1 美元。

 

Gemini 2.0 Flash-Lite 已经在 Google Ai Studio 和 Vertex AI 中提供公开预览版。

 

用户反馈怎么样?

 

谷歌首席科学家、AI 大佬 Jeff Dean 盛赞了 Gemini 2.0 Pro 的编程能力。他在 X 上发贴称对于 Gemini 2.0 Pro 编程能力感到惊讶。他表示:“我喜欢 Boggle 游戏(一种填字游戏)。这个演示展示了我们的 Gemini 2.0 Pro 模型在 AI Studio 中的编码能力。令人难以置信的是,它可以通过一个相对简单的提示,编写出完整的代码,包括所有正确的数据结构和搜索算法,以在 Boggle 游戏板上找到所有有效的单词。作为一名计算机科学家,我也很高兴它第一次就正确地完成了数据结构。” 他还幽默地用了 “Discombobulating!” (令人困惑/震惊)来形容。

 


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    Gemini 2.0 的全面发布引起了网友的广泛关注。InfoQ旗下极客时间专栏作者林健(键盘)得知 Gemini 2.0 Flash 上线后立即接入 API 试用,他在 X发贴称,Gemini 2.0 Flash 在长文本、成本和吞吐量等方面的表现优于 DeepSeek V3 和 GPT 4o-mini。

     

    尤其是与 DeepSeek V3 对比时优势明显(按后台的数据粗算,不计缓存 token)。Gemini 2.0 Flash 的成本比 DeepSeek V3 低 6 倍、输出速度快 60 倍、上下文长 16 倍,更重要的是还原生支持所有模态。




    也有 X 用户将 o3-mini-high、Gemini 2.0 Flash 和 Gemini 2.0 Pro 放在一起跑了几个基准测试进行性能比较。

     


    在综合性能表现中,Gemini 全家桶中的 2.0 Pro 在所有类别中排名第一,2.0 Flash 排名第三位,2.0 Flash Lite 则以更低的成本挤进了前十名。

     


    尽管在很多基准测试中 Gemini 系列模型都打败了同类模型,但基于 Gemini 衍生出来的产品还是被用户疯狂吐槽。

     

    我不使用 Google Gemini 的首要原因是它们会截断输入文本。因此我无法简单地将长文档或其他类型的内容作为原始文本粘贴到提示框中。

     

    甚至无法在 Gemini 中上传文档,只能上传图片。在 Hacker News 上,ID 名为heavyarms的用户表示:

     

    “我上次(也就是几天前)再次使用 Gemini 时,还是发现它只有一个‘上传图片’选项...而我断断续续玩了几个月的 Gemini,却从来没有真正上传过图片。这基本上就是我对目前大多数 Google 产品的看法:不成熟、有缺陷、令人困惑、不直观。”

     

    而且谷歌这些模型的各种版本使用时的限制条件也让人摸不着头脑。有用户吐槽:

     

    “简单来说,我今天花了一个小时想弄清楚怎么用‘深度研究’这个功能,结果还是没搞明白。我买了 Gemini Advance 的商业办公标准版,但不确定是不是还需要 VPN、额外付费买 AI 产品,或者升级到更高级的办公套餐。谷歌的产品线太复杂了,各种功能互相交织,搞得人一头雾水。我都开始怀疑,谷歌作为 AI 提供商到底靠不靠谱了。”

     

    谷歌的 API 也饱受用户诟病。

     

    使用 Google API 通常会让人感到沮丧。事实上,我喜欢他们提供的最佳基础云服务,但他们的附加 API 却杂乱无章。在这些与 AI 相关的 API 中,谷歌的 API 是最糟糕的。

    大模型下一步:各方面能力无限接近人类水平

     

    无论从大模型的部署和使用成本,还是性能上来讲,大模型的下一步目标很明确:让 AI 的能力无限接近人类水平。听起来很科幻,但其实已经在路上了。

     

    谷歌在 12 月份的一篇博客文章中写道:“在过去的一年里,我们一直在投资开发更多的代理模型,这意味着它们可以更多地了解你周围的世界,提前思考多个步骤,并在你的监督下代表你采取行动。”并补充说,Gemini 2.0 在“多模态性方面取得了新进展——比如原生图像和音频输出——以及原生工具的使用”,并且该模型系列“将使我们能够构建新的人工智能代理,让我们更接近通用助手的愿景。”

     

    Anthropic 是一家 由亚马逊支持的人工智能初创公司,由前 OpenAI 研究主管创立,是开发 AI Agent 竞赛中的关键参与者。10 月,Anthropic 表示其 AI Agent 能够像人类一样使用计算机来完成复杂的任务。这家初创公司表示,Anthropic 的计算机使用能力使其技术能够解释计算机屏幕上的内容、选择按钮、输入文本、浏览网站并通过任何软件和实时互联网浏览执行任务。

     

    Anthropic 首席科学官贾里德·卡普兰 (Jared Kaplan) 当时在接受 CNBC 采访时表示,该工具“基本上可以像我们一样使用计算机”。他说,它可以完成“数十甚至数百步”的任务。

     

    OpenAI 最近发布了一项类似的功能,名为 Operator,它可以自动执行诸如计划假期、填写表格、预订餐厅和订购杂货等任务。OpenAI 将 Operator 描述为“可以上网为您执行任务的 Agent”。

     

    本周早些时候,OpenAI 推出了 Deep Research,它允许 AI Agent 编写复杂的研究报告并分析用户选择的问题和主题。谷歌去年 12 月推出了一款同名的类似工具——Deep Research,它充当“研究助手,探索复杂主题并代表你编写报告”。

     

    CNBC 于 12 月首次报道称,谷歌将在 2025 年初推出多项人工智能功能。

     

    “从历史上看,你并不一定总是第一,但你必须执行力强,真正成为同类产品中最好的,”首席执行官 Sundar Pichai 在当时的战略​​会议上表示。“我认为这就是 2025 年的意义所在。”

     

    参考链接:

    https://blog.google/technology/google-deepmind/gemini-model-updates-february-2025/

    https://x.com/lmarena_ai/status/1887180371219132898

    2025-02-06 14:0515300
    用户头像
    李冬梅 加V:busulishang4668

    发布了 1111 篇内容, 共 723.0 次阅读, 收获喜欢 1253 次。

    关注

    评论

    发布
    暂无评论

    Spring源码分析(九)lazy-init 在Spring中是怎么控制加载的

    石臻臻的杂货铺

    spring 9月月更

    国产操作系统应用小程序化:夯实技术底座,促进生态发展

    Speedoooo

    小程序 国产操作系统 小程序容器

    GOPS现场 | 对话龙智技术顾问,分享DevOps观察与心得

    龙智—DevSecOps解决方案

    运维 DevOps工具链

    硅谷名企、国内大厂是如何度量研发效能的?|ONES 研发管理大师课

    万事ONES

    软件测试 | 测试开发 | 一文带你了解K8S 容器编排(上)

    测吧(北京)科技有限公司

    测试

    leetcode 104. Maximum Depth of Binary Tree 二叉树的最大深度(简单)

    okokabcd

    LeetCode 算法与数据结构

    牛客“基础-中级-高级”Java程序员面试八股文集结,熬夜挑灯刷

    程序知音

    Java java面试 后端技术 Java面试八股文 Java 面试题

    测试管理 | 龙智获得Xray专家认证

    龙智—DevSecOps解决方案

    Jira插件

    最后 3 天|报名参加 OpenYurt+EdgeX 挑战赛 ,冲击最高 5 万元奖励!

    阿里巴巴云原生

    阿里云 云原生 openyurt EdgeX

    软件测试 | 测试开发 | app自动化测试(Android)--显式等待机制

    测吧(北京)科技有限公司

    测试

    Serverless 架构下的 AI 应用开发:入门、实战与性能优化

    阿里巴巴云原生

    阿里云 Serverless 云原生

    软件测试 | 测试开发 | 如何模拟真实使用场景?mock 技术来帮你

    测吧(北京)科技有限公司

    测试

    小六六学Netty系列之Java 零拷贝

    自然

    Netty 网络 9月月更

    软件测试 | 测试开发 | 接口管理工具YApi怎么用?颜值高、易管理、超好用

    测吧(北京)科技有限公司

    测试 Mock

    软件测试 | 测试开发 | 文未有福利 | 接口自动化你不懂?听HttpRunner的作者怎么说

    测吧(北京)科技有限公司

    测试 接口调试

    版本管理 | 如何解决SVN的合并冲突与分支问题?

    龙智—DevSecOps解决方案

    svn 版本管理

    设备健康管理在石化行业的探索与实践

    PreMaint

    预测性维护 设备健康管理

    微信Windows端IM消息数据库的优化实践:查询慢、体积大、文件损坏等

    JackJiang

    sqlite 微信 网络编程 即时通讯 IM

    CI/CD | 大型企业与开发团队如何进行持续集成与持续发布

    龙智—DevSecOps解决方案

    持续集成 CI/CD 持续发布

    软件测试 | 测试开发 | RPC接口测试技术-Tcp 协议的接口测试

    测吧(北京)科技有限公司

    软件测试 | 测试开发 | 基于Requests与mitmproxy打造迷你接口测试框架

    测吧(北京)科技有限公司

    测试 Request

    云游戏产业链深度解析

    Finovy Cloud

    云计算 5G 云渲染 云游戏

    2022年8月国产数据库大事记-墨天轮

    墨天轮

    数据库 opengauss 国产数据库 达梦 polarDB

    软件测试 | 测试开发 | 一文搞懂测试左移和测试右移的 Why-How-What

    测吧(北京)科技有限公司

    测试 安全测试

    软件测试 | 测试开发 | app自动化测试(Android)-- 特殊控件 T识别oast

    测吧(北京)科技有限公司

    自动化测试 Android;

    代码质量与安全 | 实践“边写边清理”,您需要做好这两件事:质量配置文件和质量门

    龙智—DevSecOps解决方案

    代码质量 代码安全 静态代码安全

    LED屏幕有色差要怎么办?

    Dylan

    LED显示屏 户外LED显示屏 led显示屏厂家

    小六六学Netty系列之Java NIO(二)

    自然

    Netty 网络 9月月更

    小六六学Netty系列之Netty群聊

    自然

    Netty 网络 9月月更

    软件测试 | 测试开发 | 抓包分析 TCP 协议

    测吧(北京)科技有限公司

    TCP 抓包分析

    区块链NFT网站开发:NFT数字藏品网站开发

    开源直播系统源码

    NFT 数字藏品 数字藏品系统

    DeepSeek V3 被“秒”了?谷歌开放最强 Gemini 2.0 全家桶:速度快60倍,上下文还长16倍!_Google_李冬梅_InfoQ精选文章