写点什么

谷歌发布首个“王炸”推理大模型,剑指 o1:推理速度碾压其他大模型,水平堪比理科博士

  • 2024-12-20
    北京
  • 本文字数:1607 字

    阅读完需:约 5 分钟

大小:740.01K时长:04:12
谷歌发布首个“王炸”推理大模型,剑指o1:推理速度碾压其他大模型,水平堪比理科博士

在 OpenAI “12 天马拉松”发布的第 11 天,他们平平无奇的发布又被谷歌抢了风头。

 

刚刚,谷歌发布了实验性的“Gemini 2.0 Flash Thinking”模型,它以令人印象深刻的推理能力而闻名,可以“明确地展示自己的思维”来解决复杂问题,其水平与物理、化学和生物学博士生相当。

 

谷歌 CEO Sundar Pichai 在社交网络 X 上的一篇文章中写道,这是“我们迄今为止最周到的模型,”还配上了笑脸。

 

顾名思义,它建立在“2.0 Flash 的速度和性能”之上。谷歌表示,它“经过训练可以大声思考”,从而“具有更强的推理性能”。 

 

为了与 OpenAI 的 o1 竞争,谷歌 DeepMind 首席科学家 Jeff Dean 在 X 上的一条发文中表示,该模型“经过训练,可以使用思维来加强其推理能力”,同时还受益于速度更快的 Gemini Flash 2.0 模型。



Dean 分享的演示展示了 Gemini 2.0 Flash Thinking 如何通过“思考”一系列步骤,然后再提供解决方案,从而解答物理问题。谷歌分享了几个跨物理和概率的演示:

 

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        Gemini 2.0 Flash Thinking 现已在 Google AI Studio 和 Vertex AI 中推出。它在 Chatbot Arena LLM 排行榜上首次亮相,位居“所有类别第一” 。就在昨天,谷歌在 Gemini 应用程序中推出了 2.0 Experimental Advanced,Gemini-Exp-1206 也位居排行榜榜首。

         


        这不一定是人类那样的“推理”,但这意味着机器将指令分解为可以产生更强结果的更小的任务。

         

        另一个示例由 Google 产品负责人 Logan Kilpatrick 发布,展示了该模型如何推理解决涉及视觉和文本元素的问题。“这只是我们推理之旅的第一步,”Kilpatrick 说。


        更易于理解和更透明的推理

         

        在开发者文档中,谷歌解释说,“思考模式的响应推理能力比基础版 Gemini 2.0 Flash 模型更强”,而基础版 Gemini 2.0 Flash 模型是谷歌最新、最出色的模型,仅在 8 天前发布。

         

        新模型仅支持 32000 个标记输入(约 50-60 页文本),并且每个输出响应可以产生 8000 个标记。在 Google AI Studio 的侧面板中,该公司声称它最适合“多模式理解、推理”和“编码”。

        该模型的训练过程、架构、许可和成本的完整细节尚未公布。目前,它在 Google AI Studio 中显示每个令牌的成本为零。

         

        与 OpenAI 的竞争推理模型 o1 和 o1 mini 不同,Gemini 2.0 允许用户通过下拉菜单访问其逐步推理,从而更清晰、更透明地了解模型如何得出结论。



        通过允许用户了解决策过程,Gemini 2.0 解决了人们对人工智能作为“黑匣子”运行的长期担忧,并使该模型(许可条款仍不明确)与竞争对手的其他开源模型相提并论。

         

        一些开发者对该模型的早期简单测试表明,它可以正确而快速地(1 到 3 秒内)回答一些对于其他 AI 模型来说非常棘手的问题,例如计算“Strawberry”一词中的 R 的数量。(见上面的截图)。 

        原生支持图像上传和分析


        Gemini 2.0 Flash Thinking 是对竞争对手 OpenAI o1 系列的进一步改进,旨在处理跳跃中的图像。

         

        o1 最初是纯文本模型,但后来扩展到包括图像和文件上传分析。目前,这两种模型也只能返回文本。

         

        根据开发者文档显示,Gemini 2.0 Flash Thinking 目前还不支持与谷歌搜索落地,也不支持与其他谷歌应用和外部第三方工具集成。

         

        Gemini 2.0 Flash Thinking 的多模式能力扩展了其潜在用例,使其能够应对结合不同类型数据的场景。

         

        例如,在一项测试中,该模型解决了一个需要分析文本和视觉元素的难题,展示了其跨格式集成和推理的多功能性。

         

        开发人员可以通过 Google AI Studio 和 Vertex AI 利用这些功能,其中模型可供实验。

         

        随着人工智能领域的竞争日趋激烈,Gemini 2.0 Flash Thinking 可能标志着问题解决模型新时代的开始。它能够处理多种数据类型、提供可视化推理并大规模执行,这使它成为推理人工智能市场的有力竞争者,可与 OpenAI 的 o1 系列及其他产品相媲美。

         

        参考链接:

        https://lmarena.ai/?leaderboard

        https://analyticsindiamag.com/ai-news-updates/openai-sets-the-stage-for-agentic-ai-with-chatgpt-desktop-apps-for-mac-and-windows/

        2024-12-20 06:1910483
        用户头像
        李冬梅 加V:busulishang4668

        发布了 1111 篇内容, 共 721.0 次阅读, 收获喜欢 1253 次。

        关注

        评论

        发布
        暂无评论
        发现更多内容

        筑牢数据防线!企业级数据安全管控的核心功能全解析

        袋鼠云数栈

        数据库 大数据 数据治理 企业数据库

        真正的生产力来了!Docker迁移部署两步搞定!

        不在线第一只蜗牛

        Java Docker 容器

        AI Infra 运维实践:DeepSeek 部署运维中的软硬结合

        袋鼠云数栈

        数据库 大数据 运维 数据治理 数据平台

        通义灵码2.5来袭!MCP 功能直接让开发效率提升300%(附实战案例)

        阿里巴巴云原生

        阿里云 通义灵码

        Python Flask 容器化应用链路可观测

        观测云

        Python

        当空间与数据联动,会展中心如何打造智慧运营新范式?

        袋鼠云数栈

        数据治理 数据运营 可视化数据 现代产业 数据智慧运营

        用友与柳钢再续合作新篇,共筑废钢产业数智化新标杆

        用友BIP

        现代 Web 安全实践:基于 Token 与 Refresh Token 的单点登录 (SSO) 实现

        袋鼠云数栈

        Web 数字化转型 解决方案 数据管理 单点登录

        DolphinScheduler 6 个高频 SQL 操作技巧

        白鲸开源

        sql 大数据 开源 Apache DolphinScheduler 任务调度

        DolphinScheduler 社区月报(5-6 月):修复优化齐发力,贡献者高光时刻回顾!

        白鲸开源

        大数据 开源 Apache DolphinScheduler 贡献者 Apache基金会

        真正好用的企业AI:生于“原生”,成于“一体”

        用友BIP

        快速理解向量和向量数据库

        量贩潮汐·WholesaleTide

        数据库

        从SQL Server到分布式大数据平台:重构企业数据架构

        袋鼠云数栈

        数据库 sql 数字化转型 数据治理 SQL Server

        数据任务调度解决离不开离线开发BatchWorks

        袋鼠云数栈

        数据库 数据治理 数据调度 数据资源 batchworks

        3节点开启大数据时代:EasyMR助力中小企业轻装上阵、国产转型

        袋鼠云数栈

        数据库 大数据 数据治理 数字化 数据平台

        Sermant指标采集功能:构建指标可观测性实践

        华为云开源

        开源 微服务架构 sermant

        稳定币是对 Pi 网络的威胁吗?

        TechubNews

        国产化方案如何破解数据迁移困局?

        袋鼠云数栈

        数据架构 数据治理 大数据平台 数据迁移 数据管理

        无需安装,点击即刻优化GLB模型

        袋鼠云数栈

        数据治理 数据平台 3D模型 大模型 glb

        DolphinScheduler 社区喜讯:两项学生项目入选“开源之夏 2025”!

        白鲸开源

        大数据 开源 数据集成 Seatunnel 开源之夏

        通义灵码2.5来袭!MCP 功能直接让开发效率提升300%(附实战案例)

        阿里云云效

        阿里云 通义灵码

        AI已经很聪明了,为什么我们还需要“ AI Agent 平台”?

        袋鼠云数栈

        数据平台 AI大模型 AI应用 数据化转型 AI Agent

        基于StarRocks的指标平台查询加速方案

        袋鼠云数栈

        数据库 运维 数据管理 指标管理 指标管理平台

        SeaTunnel 社区 2 项目中选“开源之夏 2025”,探索高阶数据集成能力!

        白鲸开源

        数据库 大数据 开源 Apache SeaTunnel 开源之夏

        从“工具逻辑”到“体系逻辑”,企业治理为何必须跨越传统BI走向指标驱动?

        袋鼠云数栈

        数据库 数字化转型 BI 数据可视化 数据管理

        新时代智慧工地如何重塑班会

        袋鼠云数栈

        数字化转型 数据治理 数据安全 数据服务 数字化治理

        电子签名行业唯一独角兽:e签宝荣登《世界独角兽企业发展报告2025》

        科技汇

        MySQL索引失效场景

        电子尖叫食人鱼

        MySQL 数据库

        构建烟草行业设备全生命周期数字基座:新一代MIS的战略选择

        中烟创新

        在 AWS 上重构数据中台,这家出海企业选择了数栈

        袋鼠云数栈

        大数据 数据中台 运维 数据治理 大数据产品

        零代码打造专业级工业数字孪生

        袋鼠云数栈

        数字孪生 数据应用 数字孪生城市 易知微 3D场景

        谷歌发布首个“王炸”推理大模型,剑指o1:推理速度碾压其他大模型,水平堪比理科博士_Google_李冬梅_InfoQ精选文章