写点什么

谷歌突发 Gemini 2.5 Pro 预览版,编码能力全网第一!

  • 2025-05-07
    北京
  • 本文字数:2447 字

    阅读完需:约 8 分钟

大小:1.19M时长:06:56
谷歌突发Gemini 2.5 Pro 预览版,编码能力全网第一!

I/O 前夕,谷歌突发 Gemini 2.5 Pro 预览版

 

昨晚,谷歌在 I/O 大会之前宣布推出 Gemini 2.5 Pro Preview(I/O 版)。作为其旗舰产品 Gemini 2.5 Pro AI 模型的升级版本,搜索巨头宣称该模型在多项主流基准测试中均名列前茅。

 

Gemini 2.5 Pro Preview(I/O 版)可通过 Gemini API 以及谷歌的 Vertex AI 与 AI Studio 平台获取,价格则与升级前的 Gemini 2.5 Pro 模型相同。预览版也被引入到谷歌的 Gemini 聊天机器人应用当中,主要供 Web 及移动设备端使用。

 

谷歌 DeepMind CEO Demis Hassabis 在 X 上发帖称:“非常高兴能与大家分享我们迄今为止构建的最佳编程模型!今天,我们发布了 Gemini 2.5 Pro Preview 的‘I/O 版’,其编程能力得到了大幅提升。此版本在 LMArena 编程类别中排名第一,在 WebDev Arena 排行榜上同样拔得头筹。”

 


这套模型的发布正值谷歌年度 I/O 开发者大会(因此得名「I/O 版」)召开在际。预计谷歌将在大会上发布一系列模型以及 AI 驱动的工具和平台。在这场残酷的 AI 竞赛中,谷歌正奋力夺取市场份额与用户关注;OpenAI 及 xAI 等竞争对手也即将发布性能强大的同类模型。

 

最新版模型实际上能做些什么?

 

根据谷歌的介绍,Gemini 2.5 Pro Preview(I/O 版)在编码和构建交互式 Web 应用方面实现了“显著”提升。此外,新版本模型在代码转换(即修改一段代码以实现特定目标)与代码编辑等任务上同样表现出色。

 


谷歌在一篇博文中指出,Gemini 2.5 Pro Preview(I/O 版)在 Web Arena 排行榜(旨在衡量模型创建美观且功能强大的 Web 应用的能力)上名列前茅,比上一版本高出 147 个 Elo 积分。该排行榜衡量了人类对模型构建美观且功能强大的 Web 应用的能力的偏好。它还继续巩固了其在原生多模态和长上下文方面的坚实基础。

 


WebDev Arena 由 LMArena 开发,是一项实时 AI 编码竞赛,模型在 Web 开发挑战中展开正面交锋

视频转代码

 

值得一提的是,新版本模型在视频理解方面同样拥有一流表现,在热门基准测试 VideoMME 上取得 84.8%的得分。

 

结合编码功能,Gemini 2.5 Pro Preview 实现了之前版本无法实现的全新流程。凭借更强大的视频理解能力和更完善的用户界面,升级后的 Gemini 2.5 Pro 模型比之前的简单示例提供了更丰富的功能体验。


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    谷歌在博文中写道,“对于正在使用 Gemini 2.5 Pro Preview 的开发者们来说,此次发布的新版本不仅能够提升编程性能,还将解决开发者提出的多项关键反馈,包括减少函数调用中的错误并提高函数调用的触发率。默认情况下,该模型既能保持良好的可操控性,也真正体现出对 Web 开发的审美追求。”

    让功能开发更简单

     

    Gemini 2.5 Pro Preview 在前端 Web 开发方面表现优异。实现新功能意味着用户需要手动深入设计文件,检查组件以匹配颜色、字体、内边距、外边距和边框等样式属性,然后手动编写所需的 CSS 代码来准确复制这些视觉属性。想象一下,在 IDE 中使用 Gemini 2.5 Pro Preview,并让模型生成新功能,例如添加一个与 Gemini 95 入门应用中其他应用风格相同的视频播放器。


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      让创意更易落地

       

      Gemini 2.5 Pro Preview 让创意落地变得简单高效,它既提供强大的实用功能,又拥有优雅的用户界面。以全新升级的听写入门应用为例,该应用基于最新模型构建,充分展现了 Gemini 2.5 Pro Preview 的优势。

       

      值得关注的是其精致的细节设计:动态波长动画、流畅的响应式布局,以及巧妙的按钮悬停交互效果。这一模型天然具备现代化的 Web 开发风格,在确保视觉美感的同时,更注重操作便捷性,帮助开发者快速将概念转化为可实际运行的 Web 应用。

       

      例如,Gemini 2.5 Pro Preview 能够为听写应用智能设计麦克风 UI 动画,并自动生成相应代码,显著提升开发效率。

       

      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        外界如何评价?

         

        Gemini 2.5 Pro Preview 发布后立即在社区中引发热议,AI 编码工具 Cursor CEO Michael Truell‌也忍不住称赞 Gemini 2.5 Pro Preview 让编码能力更进一步。

         

        “我们对最新的 Gemini 2.5 Pro Preview 感到非常兴奋,它在其强大的实际编程能力基础上进一步提升。我们内部观察到,新型号调用工具失败的情况显著减少,我们相信用户会发现这一改进使 2.5 Pro Preview 在 Cursor 中的效率比以前更高。”

         

        在 Hacker News 上,有用户认为 Gemini 2.5 系列比其他模型要可靠,但仍然无法与人类开发者媲美:

         

        “前在使用其他模型编程时,我经常遇到一个令人头疼的问题:它们有时会生成根本不存在的 API。相比之下,Gemini 2.5 系列(包括 Pro 和 Flash 版本)在这方面表现要好得多,比我所尝试过的任何其他模型都更可靠。

         

        当然,它仍然存在一些明显的局限性。无论怎样优化提示词,当前的模型在抽象思维和系统架构方面还是无法与人类开发者相媲美。但即便如此,我发现 Gemini 已经能够替代我日常的很多搜索和 StackOverflow 查询,显著提升了我的编程效率。”

         

        有用户赞同了上述观点,认为即使 Gemini 2.5 Pro Preview 在智能编码方面已经足够出色,但目前仍无法媲美人类,不过,他认为 AI 在编码能力方面超越人类只是时间问题。

         

        “很明显,在代码设计领域,人类被超越只是时间问题(至于这是 1 年还是 5 年后的事,其实并不重要)。与其纠结于这些无法改变的趋势,不如把精力放在更有价值的问题上:在这个即将到来的新世界里,我们能做些什么? 我们需要更多建设性的想法,而这里正是推动这些讨论的最佳场所。”

         

        一位每日都在使用大模型辅助编程的开发者表示:

         

        “我每天都在使用大语言模型辅助编程。多年来,LLM 的编程能力确实有了显著进步,但主要集中在"自然语言到代码"的映射能力上。这种能力虽然强大,使用时仍需注意:需要精心管理上下文以保持模型专注;必须主动引导模型考虑性能优化和系统架构等关键因素。我对大模型的推理能力仍持保留态度。这并非否定其价值,而是要认识到其固有局限。我认为,要实现真正类人智能,我们可能需要探索完全不同于 LLM 的技术路径。”

         

        但也有 X 用户认为,Gemini 2.5 Pro Preview 只有编码技能略有提高。其他一切都略有下降。因此,这只是一个专为编码而生的大模型,不适合一般用途(与之前的版本相比)。

         


        参考链接:

        https://blog.google/products/gemini/gemini-2-5-pro-updates/

        2025-05-07 14:028088
        用户头像
        李冬梅 加V:busulishang4668

        发布了 1074 篇内容, 共 693.1 次阅读, 收获喜欢 1236 次。

        关注

        评论

        发布
        暂无评论

        架构实战营:模块五作业

        Geek_93ffb0

        「架构实战营」

        如何快速调度 PTS 的百万并发能力

        阿里巴巴云原生

        阿里云 云原生 Jmeter 压测 PTS

        一个cpp协程库的前世今生(二十)外部调度

        SkyFire

        c++ cocpp

        从零开发区块链应用(四)--自定义业务错误信息

        杰哥的技术杂货铺

        鸿蒙开发初体验【鸿蒙01】

        坚果

        鸿蒙 1月月更

        VuePress 博客优化之拓展 Markdown 语法

        冴羽

        JavaScript Vue markdown vuepress 博客搭建

        金融云原生漫谈(六)|安全平稳高于一切的金融行业,如何构建云原生安全防线

        York

        容器 云原生 安全 金融科技

        HarmonyOS工程【鸿蒙开发02】

        坚果

        鸿蒙开发 1月月更

        模块 5 作业

        miliving

        Discord模式等十大场景,环信带你玩转泛娱乐行业

        环信

        即时通讯 IM 泛娱乐 Discord

        基于 Prometheus 的边缘计算监控实践

        火山引擎边缘云

        云原生 监控 边缘计算

        使用 google_breakpad 分析 Electron 崩溃日志文件

        编程三昧

        Electron 1月月更 google_breakpad

        从零开发区块链应用(一)--golang配置文件管理工具viper

        杰哥的技术杂货铺

        golang 区块链

        从零开发区块链应用(三)--mysql初始化及gorm框架使用

        杰哥的技术杂货铺

        【组件攻击链】一文看懂Spring全家桶各类RCE漏洞

        H

        网络安全 漏洞

        网关流控利器:结合 AHAS 实现 Ingress/Nginx 流量控制

        阿里巴巴云原生

        nginx 阿里云 高可用 云原生 ingress

        混合云应用双活容灾最佳实践

        阿里巴巴云原生

        阿里云 运维 云原生 混合云 多活容灾

        逐鹿万亿赛道:智能重卡规模量产的困境与进化

        脑极体

        蚂蚁大规模 Sigma 集群 Etcd 拆分实践

        SOFAStack

        etcd #k8s SIGMA

        阿里云刘伟光:3.5万字拆解核心系统转型,核心从业者如何寻得“出路”

        OceanBase 数据库

        阿里 数字化转型 OceanBase 社区版 核心系统

        社区知识库|常见问答 FAQ 集合第 2 期:Topic 配置、ACK 等问题的解决

        Apache Pulsar

        架构 云原生 Apache Pulsar 开源社区 消息中间件

        2021年小总结暨2022年打脸计划

        秦怀杂货店

        总结 程序人生、

        从零开发区块链应用(二)--mysql安装及数据库表的安装创建

        杰哥的技术杂货铺

        Go 语言快速入门指南:Go 结构体

        宇宙之一粟

        Go 语言 结构体 1月月更

        架构实战营 4 期第五模块作业

        jialuooooo

        架构实战营

        (1-15/15) 预训练模型+微调范式下如何做到文本数据安全

        mtfelix

        300天创作 2022Y300P

        谈A股投资策略--《香帅中国财富报告》摘录(5/100)

        hackstoic

        投资

        创新推出 | Serverless 场景排查问题利器:函数实例命令行操作

        阿里巴巴云原生

        阿里云 Serverless 云原生 函数计算

        Spring都在用的技术,你确定不过来看看?1️⃣

        XiaoLin_Java

        1月日更

        谷歌突发Gemini 2.5 Pro 预览版,编码能力全网第一!_Google_李冬梅_InfoQ精选文章