写点什么

谷歌突发 Gemini 2.5 Pro 预览版,编码能力全网第一!

  • 2025-05-07
    北京
  • 本文字数:2447 字

    阅读完需:约 8 分钟

大小:1.19M时长:06:56
谷歌突发Gemini 2.5 Pro 预览版,编码能力全网第一!

I/O 前夕,谷歌突发 Gemini 2.5 Pro 预览版

 

昨晚,谷歌在 I/O 大会之前宣布推出 Gemini 2.5 Pro Preview(I/O 版)。作为其旗舰产品 Gemini 2.5 Pro AI 模型的升级版本,搜索巨头宣称该模型在多项主流基准测试中均名列前茅。

 

Gemini 2.5 Pro Preview(I/O 版)可通过 Gemini API 以及谷歌的 Vertex AI 与 AI Studio 平台获取,价格则与升级前的 Gemini 2.5 Pro 模型相同。预览版也被引入到谷歌的 Gemini 聊天机器人应用当中,主要供 Web 及移动设备端使用。

 

谷歌 DeepMind CEO Demis Hassabis 在 X 上发帖称:“非常高兴能与大家分享我们迄今为止构建的最佳编程模型!今天,我们发布了 Gemini 2.5 Pro Preview 的‘I/O 版’,其编程能力得到了大幅提升。此版本在 LMArena 编程类别中排名第一,在 WebDev Arena 排行榜上同样拔得头筹。”

 


这套模型的发布正值谷歌年度 I/O 开发者大会(因此得名「I/O 版」)召开在际。预计谷歌将在大会上发布一系列模型以及 AI 驱动的工具和平台。在这场残酷的 AI 竞赛中,谷歌正奋力夺取市场份额与用户关注;OpenAI 及 xAI 等竞争对手也即将发布性能强大的同类模型。

 

最新版模型实际上能做些什么?

 

根据谷歌的介绍,Gemini 2.5 Pro Preview(I/O 版)在编码和构建交互式 Web 应用方面实现了“显著”提升。此外,新版本模型在代码转换(即修改一段代码以实现特定目标)与代码编辑等任务上同样表现出色。

 


谷歌在一篇博文中指出,Gemini 2.5 Pro Preview(I/O 版)在 Web Arena 排行榜(旨在衡量模型创建美观且功能强大的 Web 应用的能力)上名列前茅,比上一版本高出 147 个 Elo 积分。该排行榜衡量了人类对模型构建美观且功能强大的 Web 应用的能力的偏好。它还继续巩固了其在原生多模态和长上下文方面的坚实基础。

 


WebDev Arena 由 LMArena 开发,是一项实时 AI 编码竞赛,模型在 Web 开发挑战中展开正面交锋

视频转代码

 

值得一提的是,新版本模型在视频理解方面同样拥有一流表现,在热门基准测试 VideoMME 上取得 84.8%的得分。

 

结合编码功能,Gemini 2.5 Pro Preview 实现了之前版本无法实现的全新流程。凭借更强大的视频理解能力和更完善的用户界面,升级后的 Gemini 2.5 Pro 模型比之前的简单示例提供了更丰富的功能体验。


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    谷歌在博文中写道,“对于正在使用 Gemini 2.5 Pro Preview 的开发者们来说,此次发布的新版本不仅能够提升编程性能,还将解决开发者提出的多项关键反馈,包括减少函数调用中的错误并提高函数调用的触发率。默认情况下,该模型既能保持良好的可操控性,也真正体现出对 Web 开发的审美追求。”

    让功能开发更简单

     

    Gemini 2.5 Pro Preview 在前端 Web 开发方面表现优异。实现新功能意味着用户需要手动深入设计文件,检查组件以匹配颜色、字体、内边距、外边距和边框等样式属性,然后手动编写所需的 CSS 代码来准确复制这些视觉属性。想象一下,在 IDE 中使用 Gemini 2.5 Pro Preview,并让模型生成新功能,例如添加一个与 Gemini 95 入门应用中其他应用风格相同的视频播放器。


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      让创意更易落地

       

      Gemini 2.5 Pro Preview 让创意落地变得简单高效,它既提供强大的实用功能,又拥有优雅的用户界面。以全新升级的听写入门应用为例,该应用基于最新模型构建,充分展现了 Gemini 2.5 Pro Preview 的优势。

       

      值得关注的是其精致的细节设计:动态波长动画、流畅的响应式布局,以及巧妙的按钮悬停交互效果。这一模型天然具备现代化的 Web 开发风格,在确保视觉美感的同时,更注重操作便捷性,帮助开发者快速将概念转化为可实际运行的 Web 应用。

       

      例如,Gemini 2.5 Pro Preview 能够为听写应用智能设计麦克风 UI 动画,并自动生成相应代码,显著提升开发效率。

       

      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        外界如何评价?

         

        Gemini 2.5 Pro Preview 发布后立即在社区中引发热议,AI 编码工具 Cursor CEO Michael Truell‌也忍不住称赞 Gemini 2.5 Pro Preview 让编码能力更进一步。

         

        “我们对最新的 Gemini 2.5 Pro Preview 感到非常兴奋,它在其强大的实际编程能力基础上进一步提升。我们内部观察到,新型号调用工具失败的情况显著减少,我们相信用户会发现这一改进使 2.5 Pro Preview 在 Cursor 中的效率比以前更高。”

         

        在 Hacker News 上,有用户认为 Gemini 2.5 系列比其他模型要可靠,但仍然无法与人类开发者媲美:

         

        “前在使用其他模型编程时,我经常遇到一个令人头疼的问题:它们有时会生成根本不存在的 API。相比之下,Gemini 2.5 系列(包括 Pro 和 Flash 版本)在这方面表现要好得多,比我所尝试过的任何其他模型都更可靠。

         

        当然,它仍然存在一些明显的局限性。无论怎样优化提示词,当前的模型在抽象思维和系统架构方面还是无法与人类开发者相媲美。但即便如此,我发现 Gemini 已经能够替代我日常的很多搜索和 StackOverflow 查询,显著提升了我的编程效率。”

         

        有用户赞同了上述观点,认为即使 Gemini 2.5 Pro Preview 在智能编码方面已经足够出色,但目前仍无法媲美人类,不过,他认为 AI 在编码能力方面超越人类只是时间问题。

         

        “很明显,在代码设计领域,人类被超越只是时间问题(至于这是 1 年还是 5 年后的事,其实并不重要)。与其纠结于这些无法改变的趋势,不如把精力放在更有价值的问题上:在这个即将到来的新世界里,我们能做些什么? 我们需要更多建设性的想法,而这里正是推动这些讨论的最佳场所。”

         

        一位每日都在使用大模型辅助编程的开发者表示:

         

        “我每天都在使用大语言模型辅助编程。多年来,LLM 的编程能力确实有了显著进步,但主要集中在"自然语言到代码"的映射能力上。这种能力虽然强大,使用时仍需注意:需要精心管理上下文以保持模型专注;必须主动引导模型考虑性能优化和系统架构等关键因素。我对大模型的推理能力仍持保留态度。这并非否定其价值,而是要认识到其固有局限。我认为,要实现真正类人智能,我们可能需要探索完全不同于 LLM 的技术路径。”

         

        但也有 X 用户认为,Gemini 2.5 Pro Preview 只有编码技能略有提高。其他一切都略有下降。因此,这只是一个专为编码而生的大模型,不适合一般用途(与之前的版本相比)。

         


        参考链接:

        https://blog.google/products/gemini/gemini-2-5-pro-updates/

        2025-05-07 14:028536
        用户头像
        李冬梅 加V:busulishang4668

        发布了 1094 篇内容, 共 708.6 次阅读, 收获喜欢 1243 次。

        关注

        评论

        发布
        暂无评论

        重学JS | this的指向问题

        梁龙先森

        大前端 编程语言 28天写作

        第 12 周作业

        Steven

        Dubbo微服务调用时序图

        Andy

        数字货币合约交易系统软件APP开发

        系统开发

        大作业:知识点图谱

        paul

        大作业二

        「架构师训练营第 1 期」

        接私活必备的 6 个开源项目

        GitHub指北

        大作业一

        饭桶

        大作业二

        饭桶

        「架构师训练营 4 期」 第二周 - 0201

        凯迪

        作业-第12周

        arcyao

        架构师训练营第 1 期 - 第 13 周 - 命题作业

        wgl

        「架构师训练营第 1 期」

        架构师第 7 课作业及学习总结

        小诗

        「架构师训练营第 1 期」

        架构师第 9 课作业及学习总结

        小诗

        「架构师训练营第 1 期」

        Python 100 天从新手到大师

        GitHub指北

        十二周总结

        水浴清风

        架构师第 8 课作业及学习总结

        小诗

        「架构师训练营第 1 期」

        DAPP智能合约APP开发|DAPP智能合约软件系统开发

        系统开发

        软件架构知识树

        Andy

        JVM 垃圾回收机制分析

        Andy

        架构师训练营大作业

        Cheer

        架构师第 13 课作业及学习总结

        小诗

        「架构师训练营第 1 期」

        架构师第 5 课作业及学习总结

        小诗

        「架构师训练营第 1 期」

        架构师训练营第 1 期 - 第 13 周 - 学习总结

        wgl

        「架构师训练营第 1 期」

        Prometheus官方文档【查询篇-运算符】

        卓丁

        Prometheus Monitor 监控告警 普罗米修斯 PromQL

        架构师第 12 课作业及学习总结

        小诗

        大数据计算引擎Spark

        积极&丧

        架构师第 10 课作业及学习总结

        小诗

        软件架构设计实战

        Andy

        架构师第 11 课作业及学习总结

        小诗

        「架构师训练营第 1 期」

        极客时间 架构大作业,快递平台架构搭建

        博古通今小虾米

        极客时间 架构

        谷歌突发Gemini 2.5 Pro 预览版,编码能力全网第一!_Google_李冬梅_InfoQ精选文章