写点什么

谷歌突发 Gemini 2.5 Pro 预览版,编码能力全网第一!

  • 2025-05-07
    北京
  • 本文字数:2447 字

    阅读完需:约 8 分钟

大小:1.19M时长:06:56
谷歌突发Gemini 2.5 Pro 预览版,编码能力全网第一!

I/O 前夕,谷歌突发 Gemini 2.5 Pro 预览版

 

昨晚,谷歌在 I/O 大会之前宣布推出 Gemini 2.5 Pro Preview(I/O 版)。作为其旗舰产品 Gemini 2.5 Pro AI 模型的升级版本,搜索巨头宣称该模型在多项主流基准测试中均名列前茅。

 

Gemini 2.5 Pro Preview(I/O 版)可通过 Gemini API 以及谷歌的 Vertex AI 与 AI Studio 平台获取,价格则与升级前的 Gemini 2.5 Pro 模型相同。预览版也被引入到谷歌的 Gemini 聊天机器人应用当中,主要供 Web 及移动设备端使用。

 

谷歌 DeepMind CEO Demis Hassabis 在 X 上发帖称:“非常高兴能与大家分享我们迄今为止构建的最佳编程模型!今天,我们发布了 Gemini 2.5 Pro Preview 的‘I/O 版’,其编程能力得到了大幅提升。此版本在 LMArena 编程类别中排名第一,在 WebDev Arena 排行榜上同样拔得头筹。”

 


这套模型的发布正值谷歌年度 I/O 开发者大会(因此得名「I/O 版」)召开在际。预计谷歌将在大会上发布一系列模型以及 AI 驱动的工具和平台。在这场残酷的 AI 竞赛中,谷歌正奋力夺取市场份额与用户关注;OpenAI 及 xAI 等竞争对手也即将发布性能强大的同类模型。

 

最新版模型实际上能做些什么?

 

根据谷歌的介绍,Gemini 2.5 Pro Preview(I/O 版)在编码和构建交互式 Web 应用方面实现了“显著”提升。此外,新版本模型在代码转换(即修改一段代码以实现特定目标)与代码编辑等任务上同样表现出色。

 


谷歌在一篇博文中指出,Gemini 2.5 Pro Preview(I/O 版)在 Web Arena 排行榜(旨在衡量模型创建美观且功能强大的 Web 应用的能力)上名列前茅,比上一版本高出 147 个 Elo 积分。该排行榜衡量了人类对模型构建美观且功能强大的 Web 应用的能力的偏好。它还继续巩固了其在原生多模态和长上下文方面的坚实基础。

 


WebDev Arena 由 LMArena 开发,是一项实时 AI 编码竞赛,模型在 Web 开发挑战中展开正面交锋

视频转代码

 

值得一提的是,新版本模型在视频理解方面同样拥有一流表现,在热门基准测试 VideoMME 上取得 84.8%的得分。

 

结合编码功能,Gemini 2.5 Pro Preview 实现了之前版本无法实现的全新流程。凭借更强大的视频理解能力和更完善的用户界面,升级后的 Gemini 2.5 Pro 模型比之前的简单示例提供了更丰富的功能体验。


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    谷歌在博文中写道,“对于正在使用 Gemini 2.5 Pro Preview 的开发者们来说,此次发布的新版本不仅能够提升编程性能,还将解决开发者提出的多项关键反馈,包括减少函数调用中的错误并提高函数调用的触发率。默认情况下,该模型既能保持良好的可操控性,也真正体现出对 Web 开发的审美追求。”

    让功能开发更简单

     

    Gemini 2.5 Pro Preview 在前端 Web 开发方面表现优异。实现新功能意味着用户需要手动深入设计文件,检查组件以匹配颜色、字体、内边距、外边距和边框等样式属性,然后手动编写所需的 CSS 代码来准确复制这些视觉属性。想象一下,在 IDE 中使用 Gemini 2.5 Pro Preview,并让模型生成新功能,例如添加一个与 Gemini 95 入门应用中其他应用风格相同的视频播放器。


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      让创意更易落地

       

      Gemini 2.5 Pro Preview 让创意落地变得简单高效,它既提供强大的实用功能,又拥有优雅的用户界面。以全新升级的听写入门应用为例,该应用基于最新模型构建,充分展现了 Gemini 2.5 Pro Preview 的优势。

       

      值得关注的是其精致的细节设计:动态波长动画、流畅的响应式布局,以及巧妙的按钮悬停交互效果。这一模型天然具备现代化的 Web 开发风格,在确保视觉美感的同时,更注重操作便捷性,帮助开发者快速将概念转化为可实际运行的 Web 应用。

       

      例如,Gemini 2.5 Pro Preview 能够为听写应用智能设计麦克风 UI 动画,并自动生成相应代码,显著提升开发效率。

       

      00:00 / 00:00
        1.0x
        • 3.0x
        • 2.5x
        • 2.0x
        • 1.5x
        • 1.25x
        • 1.0x
        • 0.75x
        • 0.5x
        网页全屏
        全屏
        00:00


        外界如何评价?

         

        Gemini 2.5 Pro Preview 发布后立即在社区中引发热议,AI 编码工具 Cursor CEO Michael Truell‌也忍不住称赞 Gemini 2.5 Pro Preview 让编码能力更进一步。

         

        “我们对最新的 Gemini 2.5 Pro Preview 感到非常兴奋,它在其强大的实际编程能力基础上进一步提升。我们内部观察到,新型号调用工具失败的情况显著减少,我们相信用户会发现这一改进使 2.5 Pro Preview 在 Cursor 中的效率比以前更高。”

         

        在 Hacker News 上,有用户认为 Gemini 2.5 系列比其他模型要可靠,但仍然无法与人类开发者媲美:

         

        “前在使用其他模型编程时,我经常遇到一个令人头疼的问题:它们有时会生成根本不存在的 API。相比之下,Gemini 2.5 系列(包括 Pro 和 Flash 版本)在这方面表现要好得多,比我所尝试过的任何其他模型都更可靠。

         

        当然,它仍然存在一些明显的局限性。无论怎样优化提示词,当前的模型在抽象思维和系统架构方面还是无法与人类开发者相媲美。但即便如此,我发现 Gemini 已经能够替代我日常的很多搜索和 StackOverflow 查询,显著提升了我的编程效率。”

         

        有用户赞同了上述观点,认为即使 Gemini 2.5 Pro Preview 在智能编码方面已经足够出色,但目前仍无法媲美人类,不过,他认为 AI 在编码能力方面超越人类只是时间问题。

         

        “很明显,在代码设计领域,人类被超越只是时间问题(至于这是 1 年还是 5 年后的事,其实并不重要)。与其纠结于这些无法改变的趋势,不如把精力放在更有价值的问题上:在这个即将到来的新世界里,我们能做些什么? 我们需要更多建设性的想法,而这里正是推动这些讨论的最佳场所。”

         

        一位每日都在使用大模型辅助编程的开发者表示:

         

        “我每天都在使用大语言模型辅助编程。多年来,LLM 的编程能力确实有了显著进步,但主要集中在"自然语言到代码"的映射能力上。这种能力虽然强大,使用时仍需注意:需要精心管理上下文以保持模型专注;必须主动引导模型考虑性能优化和系统架构等关键因素。我对大模型的推理能力仍持保留态度。这并非否定其价值,而是要认识到其固有局限。我认为,要实现真正类人智能,我们可能需要探索完全不同于 LLM 的技术路径。”

         

        但也有 X 用户认为,Gemini 2.5 Pro Preview 只有编码技能略有提高。其他一切都略有下降。因此,这只是一个专为编码而生的大模型,不适合一般用途(与之前的版本相比)。

         


        参考链接:

        https://blog.google/products/gemini/gemini-2-5-pro-updates/

        2025-05-07 14:028838
        用户头像
        李冬梅 加V:busulishang4668

        发布了 1155 篇内容, 共 773.8 次阅读, 收获喜欢 1283 次。

        关注

        评论

        发布
        暂无评论

        基础设施SIG月度动态:ABS新增ISO、VHD镜像构建,自动热补丁制作流程正式上线

        OpenAnolis小助手

        镜像 基础设施 龙蜥社区 sig abs

        基于STM32的铁路自动围栏系统设计

        DS小龙哥

        6 月 优质更文活动

        华为云CodeArts Build快速上手编译构建-进阶玩家体验

        云计算 编译 开发 华为云

        一文读懂ChatGPT的工作原理:大语言模型是个啥?它到底咋工作的?

        禅道项目管理

        #人工智能 ChatGPT AI 2022

        在人工智能冲击下,IT部门的生存价值在哪里?

        FN0

        AIGC

        Vue3中常用的Composition(组合)API-ref(引用)函数

        不觉心动

        6 月 优质更文活动

        xenomai内核解析--实时linux概述

        沐多

        RTOS 实时linux xenomai

        前端如何处理「并发」问题?

        不叫猫先生

        并发 axios 6 月 优质更文活动

        手牵手带你实现mini-vue | 京东云技术团队

        京东科技开发者

        Vue 数据绑定 vue2 企业号 6 月 PK 榜 双向数据绑定

        海外交友源码平台搭建:基础功能的实现(一)

        山东布谷科技

        软件开发、 源码搭建 海外市场 语音交友源码

        IT知识百科:什么是OTN——光传送网?

        wljslmz

        6 月 优质更文活动

        如何在 Linux 上列出磁盘?

        wljslmz

        6 月 优质更文活动

        如何评估大型语言模型(LLM)?

        Baihai IDP

        人工智能 深度学习 大模型 白海科技 大模型评估

        万字详解常用设计模式

        越长大越悲伤

        设计模式

        在 Go 中使用 sqlx 替代 database/sql 操作数据库

        江湖十年

        数据库 后端 sql Go 语言

        Backdata.net 搜索引擎

        Yongqiang

        搜索引擎 导航网站

        AI关于AI民主化的高见

        FN0

        AIGC

        随机2D形状周围层流预测!基于飞桨实现图形神经网络

        飞桨PaddlePaddle

        人工智能 百度 飞桨

        Vue3中常用的Composition(组合)API-初识setup

        不觉心动

        6 月 优质更文活动

        C语言编程—语法练习

        芯动大师

        C语言 语法 6 月 优质更文活动

        做好演讲表达的道法术器(《如何激活你的表达思维》-- 培训收获)(68/100)

        hackstoic

        领导力 演讲 沟通

        Vue3中常用的Composition(组合)API-ref(引用)函数

        不觉心动

        6 月 优质更文活动

        漫谈 SAP 产品里页面上的 Checkbox 设计与实现

        汪子熙

        SAP 前端设计 思爱普 6 月 优质更文活动

        使用华为云AstroZero,不用一行代码,制作端午节加班申请模板

        云计算 零代码 华为云

        Kubernetes集群认证管理

        穿过生命散发芬芳

        6 月 优质更文活动

        微服务中「组件」集成

        Java 架构

        培育开源人才,助力开源生态发展|2023开放原子全球开源峰会校源行分论坛圆满落幕

        开放原子开源基金会

        开源 开放原子全球开源峰会 开放原子 校源行

        Vue3中常用的Composition(组合)API-watch(监视)函数

        不觉心动

        6 月 优质更文活动

        300行代码模拟cdn访问过程

        蓝胖子的编程梦

        CDN DNS CDN加速 CDN技术 #DNS

        数字化扶乩的最佳语言是英语?

        FN0

        AIGC

        CSS小技巧之悬停3D发光效果

        南城FE

        CSS 前端 动画 3D 交互

        谷歌突发Gemini 2.5 Pro 预览版,编码能力全网第一!_Google_李冬梅_InfoQ精选文章