写点什么

谷歌发布首个“王炸”推理大模型,剑指 o1:推理速度碾压其他大模型,水平堪比理科博士

  • 2024-12-20
    北京
  • 本文字数:1607 字

    阅读完需:约 5 分钟

大小:740.01K时长:04:12
谷歌发布首个“王炸”推理大模型,剑指o1:推理速度碾压其他大模型,水平堪比理科博士

在 OpenAI “12 天马拉松”发布的第 11 天,他们平平无奇的发布又被谷歌抢了风头。

 

刚刚,谷歌发布了实验性的“Gemini 2.0 Flash Thinking”模型,它以令人印象深刻的推理能力而闻名,可以“明确地展示自己的思维”来解决复杂问题,其水平与物理、化学和生物学博士生相当。

 

谷歌 CEO Sundar Pichai 在社交网络 X 上的一篇文章中写道,这是“我们迄今为止最周到的模型,”还配上了笑脸。

 

顾名思义,它建立在“2.0 Flash 的速度和性能”之上。谷歌表示,它“经过训练可以大声思考”,从而“具有更强的推理性能”。 

 

为了与 OpenAI 的 o1 竞争,谷歌 DeepMind 首席科学家 Jeff Dean 在 X 上的一条发文中表示,该模型“经过训练,可以使用思维来加强其推理能力”,同时还受益于速度更快的 Gemini Flash 2.0 模型。



Dean 分享的演示展示了 Gemini 2.0 Flash Thinking 如何通过“思考”一系列步骤,然后再提供解决方案,从而解答物理问题。谷歌分享了几个跨物理和概率的演示:

 

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        Gemini 2.0 Flash Thinking 现已在 Google AI Studio 和 Vertex AI 中推出。它在 Chatbot Arena LLM 排行榜上首次亮相,位居“所有类别第一” 。就在昨天,谷歌在 Gemini 应用程序中推出了 2.0 Experimental Advanced,Gemini-Exp-1206 也位居排行榜榜首。

         


        这不一定是人类那样的“推理”,但这意味着机器将指令分解为可以产生更强结果的更小的任务。

         

        另一个示例由 Google 产品负责人 Logan Kilpatrick 发布,展示了该模型如何推理解决涉及视觉和文本元素的问题。“这只是我们推理之旅的第一步,”Kilpatrick 说。


        更易于理解和更透明的推理

         

        在开发者文档中,谷歌解释说,“思考模式的响应推理能力比基础版 Gemini 2.0 Flash 模型更强”,而基础版 Gemini 2.0 Flash 模型是谷歌最新、最出色的模型,仅在 8 天前发布。

         

        新模型仅支持 32000 个标记输入(约 50-60 页文本),并且每个输出响应可以产生 8000 个标记。在 Google AI Studio 的侧面板中,该公司声称它最适合“多模式理解、推理”和“编码”。

        该模型的训练过程、架构、许可和成本的完整细节尚未公布。目前,它在 Google AI Studio 中显示每个令牌的成本为零。

         

        与 OpenAI 的竞争推理模型 o1 和 o1 mini 不同,Gemini 2.0 允许用户通过下拉菜单访问其逐步推理,从而更清晰、更透明地了解模型如何得出结论。



        通过允许用户了解决策过程,Gemini 2.0 解决了人们对人工智能作为“黑匣子”运行的长期担忧,并使该模型(许可条款仍不明确)与竞争对手的其他开源模型相提并论。

         

        一些开发者对该模型的早期简单测试表明,它可以正确而快速地(1 到 3 秒内)回答一些对于其他 AI 模型来说非常棘手的问题,例如计算“Strawberry”一词中的 R 的数量。(见上面的截图)。 

        原生支持图像上传和分析


        Gemini 2.0 Flash Thinking 是对竞争对手 OpenAI o1 系列的进一步改进,旨在处理跳跃中的图像。

         

        o1 最初是纯文本模型,但后来扩展到包括图像和文件上传分析。目前,这两种模型也只能返回文本。

         

        根据开发者文档显示,Gemini 2.0 Flash Thinking 目前还不支持与谷歌搜索落地,也不支持与其他谷歌应用和外部第三方工具集成。

         

        Gemini 2.0 Flash Thinking 的多模式能力扩展了其潜在用例,使其能够应对结合不同类型数据的场景。

         

        例如,在一项测试中,该模型解决了一个需要分析文本和视觉元素的难题,展示了其跨格式集成和推理的多功能性。

         

        开发人员可以通过 Google AI Studio 和 Vertex AI 利用这些功能,其中模型可供实验。

         

        随着人工智能领域的竞争日趋激烈,Gemini 2.0 Flash Thinking 可能标志着问题解决模型新时代的开始。它能够处理多种数据类型、提供可视化推理并大规模执行,这使它成为推理人工智能市场的有力竞争者,可与 OpenAI 的 o1 系列及其他产品相媲美。

         

        参考链接:

        https://lmarena.ai/?leaderboard

        https://analyticsindiamag.com/ai-news-updates/openai-sets-the-stage-for-agentic-ai-with-chatgpt-desktop-apps-for-mac-and-windows/

        2024-12-20 06:1911146
        用户头像
        李冬梅 加V:busulishang4668

        发布了 1208 篇内容, 共 830.7 次阅读, 收获喜欢 1313 次。

        关注

        评论

        发布
        暂无评论
        发现更多内容

        微信小程序登录流程详解

        frank-say

        如何把 Caffeine Cache 用得如丝般顺滑?

        vivo互联网技术

        Java 缓存 服务器 Caffeine

        你的企业会讲故事吗?

        石云升

        团队建设 28天写作 职场经验 管理经验 4月日更

        资讯|WebRTC M90 更新

        网易云信

        WebRTC

        百度智能云成中国跳水队独家AI合作伙伴圆梦东京!

        百度大脑

        百度智能云

        字节架构师分享:如何让代码在级别上提升系统性能

        Java架构师迁哥

        死亡直播

        箭上有毒

        生活随想 4月日更

        智能小车系列-动力系统(ezPWM)

        波叽波叽啵😮一口盐汽水喷死你

        pwm ezPWM PWM信号

        生命中的无奈

        小天同学

        读书 读后感 生命 4月日更

        最新、最全、最详细的 Git 学习笔记总结(2021最新版)

        民工哥

        后端 Git Submodule linux运维 代码管理

        赋能制造产业智能化转型 百度大脑开放日福州解密

        百度大脑

        百度大脑 开放日 智能化

        C盘内存杀手,原来是这款出人意料的被闲置的软件|iTunes

        彭宏豪95

        效率 工具 4月日更 iTunes

        聪明人的训练(二十八)

        Changing Lin

        4月日更

        《趣学音视频》这段“朋友圈模版视频”的扛鼎之作是如何诞生的

        ucsheep

        Python 音视频 ffmpeg Pillow

        HDFS的Java API

        五分钟学大数据

        hdfs

        云原生新边界——阿里云边缘计算云原生落地实践

        阿里巴巴云原生

        云计算 容器 运维 云原生 边缘计算

        HDFS文件限额配置

        五分钟学大数据

        hadoop

        智能小车系列-串口设置

        波叽波叽啵😮一口盐汽水喷死你

        串口 树莓派串口 ttyAMA0

        面向软件 IT 专业的高校大学生课余时间自学情况调查

        xiezhr

        大学生日常 IT 高校学院 问卷调查

        HDFS NameNode中的FSImage与edits详解

        五分钟学大数据

        hdfs

        边开飞机边换引擎?我们造了个新功能保障业务流量无损迁移

        阿里巴巴云原生

        容器 运维 k8s 中间件 弹性计算

        云信技术系列课 | RTC 系统音频弱网对抗技术发展与实践

        网易云信

        WebRTC 音频

        IT 专业高校大学生就业方向状况调查问卷

        架构精进之路

        调查报告 4月日更 InfoQ 写作平台 1 周年

        大数据基本导论

        五分钟学大数据

        大数据

        特斯拉行车数据被篡改?专家称车企很难自证清白,保留“数据指纹”的区块链技术在路上

        CECBC

        指纹

        Spring Cloud Stream 体系及原理介绍

        阿里巴巴云原生

        Java 负载均衡 微服务 云原生 中间件

        What CANN Can?一辆小车背后的智能故事

        脑极体

        如何通过openLooKeng更高效访问HBase?

        LooK

        Java 大数据 Bigdata MySQL 高可用

        Jcenter 停止服务,说一说我们的迁移方案

        Antway

        android maven Gradle

        ELK 教程 – 高效发现、分析和可视化你的数据

        码界行者

        elastic DevOps ELK Elastic Stack ELK Stack

        排查dubbo接口重复注销问题,我发现了一个巧妙的设计

        捉虫大师

        dubbo

        谷歌发布首个“王炸”推理大模型,剑指o1:推理速度碾压其他大模型,水平堪比理科博士_Google_李冬梅_InfoQ精选文章