2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

Claude 时代终结?LMArena 实测 DeepSeek R1 编程得分超 Opus 4,但月暗称其新模型更胜一筹

  • 2025-06-17
    北京
  • 本文字数:4113 字

    阅读完需:约 13 分钟

大小:1.96M时长:11:25
Claude时代终结?LMArena实测DeepSeek R1编程得分超Opus 4,但月暗称其新模型更胜一筹

在当今以闭源模型为主导、各大科技公司严格保护核心 AI 技术的环境下,一个开源项目能够真正挑战行业顶尖产品实属罕见。

 

然而,DeepSeek 前段时间更新的最新版本 DeepSeek-R1(0528)不仅做到了这一点,甚至在某些关键领域超越了 Claude Opus 4 和 GPT-4.1 这样的顶级商业模型。

 


真正引起开发者社区关注的是 R10528)在大模型公共基准测试平台 LMArena 上的性能排名超越了多个顶尖封闭模型。

R1 编码能力超过 Claude Opus 4

 

在 WebDev Arena 中,DeepSeek-R1(0528)的性能表现与 Gemini-2.5-Pro-Preview-06-05、Claude Opus 4 (20250514) 等闭源大模型并列第一,更让人惊讶的是,R1(0528)得分为 1408.84 分,在分数上已经超过了得分为 1405.51 的 Claude Opus 4。

 

WebDev Arena 是由 LMArena 开发的实时 AI 编程竞赛平台,专注于 Web 开发挑战,让不同 AI 模型同台竞技、一较高下。



想想 Claude Opus 4 背后的资源。Anthropic 已经筹集了数亿美元,聘请了全球最优秀的 AI 研究人员,并拥有海量的计算资源。然而,由一个规模相对较小的团队开发的 DeepSeek 却拥有与之完全匹配的性能。

 

这样的成就的确令人惊叹。因为要想在 WebDev Arena 测试中取得高分并不是件容易事。

 

WebDev Arena 测试的不仅仅是基本的编码能力。它向这些模型提出了复杂、多步骤的开发挑战。例如构建交互式组件、调试复杂的 JavaScript 问题、处理 CSS 边缘情况。这些挑战将实际的开发能力与简单的代码生成区分开来。

 

除了编码之外,DeepSeek-R1(0528)在文本竞技场中排名第六。现在,文本竞技场的挑战性变得更高,因为它测试广泛的语言理解、推理和复杂任务的处理能力。

 

Text Arena 的测试也相对复杂。Text Arena 测试旨在揭示模型的弱点。这类挑战设置得细致入微、层次丰富,模型有时候会在这些挑战中暴露出“幻觉”,甚至出现一本正经胡说八道的现象。

 

Text Arena 测试结果显示 DeepSeek 能在文本能力上与 GPT-4o、Claude Opus 以及其他由巨额企业研究预算支持的模型展开直接竞争。



在其他细分领域的测试中,DeepSeek-R1(0528)表现怎样?具体测试结果如下:

 

  • 在硬提示词(Hard Prompt)测试中排名第 4

  • 在编程(Coding)测试中排名第 2

  • 在数学(Math)测试中排名第 5

  • 在创意性写作(Creative Writing)测试中排名第 6

  • 在指令遵循(Intruction Fellowing)测试中排名第 9

  • 在更长查询(Longer Query)测试中排名第 8

  • 在多轮(Multi-Turn)测试中排名第 7

 


社区:堪称开源界里程碑时刻

 

2025 年 5 月 28 日,DeepSeek 发布了 R1(0528)(或称 R1.2),这是其开源大语言模型 DeepSeek R1 系列的最新升级版本。尽管官方将其定位为“小版本更新”,但实际测试表明,DeepSeek-R1(0528) 在推理深度、代码能力及整体稳定性上都有很大的提升。

 

它还是沿用了初代 R1 的混合专家(MoE)架构,总参数量高达 6850 亿,但每次推理仅激活约 370 亿参数,确保高效计算。同时,它支持 128K tokens 的长上下文窗口,使其在长文本理解、代码分析和复杂逻辑推理任务中同样表现出色。

 

此次升级的关键在于训练后优化,DeepSeek 团队通过改进推理策略和计算资源分配,使模型在数学推导、代码生成和复杂问题解决方面的能力大幅提升。

 

LMArena 最新测试结果在社交平台上引发了诸多讨论。

 

在 X 上,有 ID 名为 Sughu 的用户表示,DeepSeek 与 Claude Opus 4 匹敌。这些数字令人难以置信。

 


还有用户已经摩拳擦掌,迫不及待想试试 R1(0528)实际使用效果怎么样了。

 


还有用户拿 R1 的开源特性调侃 Opus 等封闭模型。

 

“区别在于:Opus 让你变穷,但 R1 是免费的。”


也有用户认为,DeepSeek R1 目前在测试中显现出来的性能表现的确是让人印象深刻,但它也有一些地方不及 Claude,比如在用户体验方面还有待提升。

 

“DeepSeek R1 目前在 WebDev Arena 性能上与 Claude Opus 匹敌,鉴于 Claude 长期以来作为代码型 AI 基准的地位,这是一个值得注意的里程碑。

 

这标志着开源人工智能的关键时刻。DeepSeek R1 在完全开放的 MIT 许可证下提供了前沿级别的能力,表明开放模型如今已能够与最优秀的专有系统相媲美。虽然这一突破在 Web 开发领域最为显著,但其影响可能会扩展到更广泛的编码领域。

 

然而,原始性能并不能定义其实际效用。DeepSeek R1 在技术能力上或许能与 Claude 匹敌,但它在用户体验方面仍远不及 Claude,而正是这种体验让 Claude 在日常工作流程中如此高效。”

 


在 Reddit 平台上,一些用户同样对 DeepSeek R1(0528)强大的编码能力表示赞扬,甚至觉得使用 R1 辅助编程的开发者能碾压用其他封闭模型的开发者。

 

“DeepSeek R1(0528)很火。我知道这是 LMAarena 的测试(可能会有点不那么准确),但我绝对相信 R1 的实力有能力做到如此。我觉得它用在编程上,它的性能确实能与 Gemini/OpenAI 和 Anthropic 的模型匹敌。一个能用 DeepSeek 的程序员会碾压使用封闭模型的普通程序。”

 

但也有用户对 WebDev Arena 测试的结果表示了怀疑,认为 DeepSeek 的确很强大,但在 WebDev 中与 Opus 比肩,还是不太相信。

 

“他们(LMArena)有没有修改评级流程或模型?DeepSeek 很棒,但在 WebDev 领域能和 Opus 比肩吗?不可能的!”

 


其实也不怪网友质疑 LMArena 的测试结果,因为前不久,AI 实验室 Cohere、斯坦福大学、麻省理工学院和 Ai2 也联合发表了一篇新论文,指责 LMArena 在榜单分数上偏袒一些科技巨头公司。

 


论文地址:https://arxiv.org/pdf/2504.20879

 

据作者称,LMArena 允许一些行业领先的 AI 公司(例如 Meta、OpenAI、谷歌等)私下测试多种 AI 模型变体,并且不公布表现最差的模型的得分。作者表示,这使得这些公司更容易在该平台的排行榜上名列前茅。

 

作者称,在科技巨头 Meta 发布 Llama 4 之前的 1 月至 3 月期间,一家名为 Meta 的 AI 公司在 Chatbot Arena 上私下测试了 27 种模型变体。在发布时,Meta 只公开透露了一个模型的得分——而这个模型恰好在 Chatbot Arena 排行榜上名列前茅。

 


这项研究的图表。(图片来源:Singh 等人)

 

面对这些指控,LMArena 联合创始人兼加州大学伯克利分校教授 Ion Stoica 在给媒体的一封电子邮件中表示,这篇论文充满了“不准确之处”和“值得怀疑的分析”。

 

月之暗面新模型编程新榜单超过 R1

 

巧合的是,今天月之暗面发布了针对软件工程任务的全新开源代码大模型 Kimi-Dev-72B。

 

Kimi-Dev-72B 项目地址:https://huggingface.co/moonshotai/Kimi-Dev-72B

 

该模型在 SWE-bench Verified 编程基准测试中取得了全球最高开源模型水平,以仅 72B 的参数量,成绩超过了 R1(0528),而 R1(0528)在中 LMArena 的编码能力测试中与谷歌、Anthropic 模型并列第一。

 

Kimi-Dev-72B 在 AI 软件工程能力基准测试 SWE-bench Verified 上取得了 60.4%的高分,创下开源模型的 SOTA 成绩。

 


Kimi-Dev-72B 通过大规模强化学习进行了优化。它能够自主修补 Docker 中的真实存储库,并且只有当整个测试套件通过时才会获得奖励。这确保了解决方案的正确性和稳健性,并符合现实世界的开发标准。

 

在月之暗面官网上,研发团队介绍离 Kimi-Dev-72B 的设计理念和技术细节,包括 BugFixer 和 TestWriter 的组合、中期训练、强化学习和测试时自我博弈。

BugFixer 和 TestWriter 的组合

 

一个成功修复漏洞的补丁应通过能准确反映该漏洞的单元测试。同时,一个成功复现漏洞的测试应触发断言错误,而当向代码库应用正确的漏洞修复补丁后,该测试应能通过。这体现了漏洞修复者(BugFixer)与测试编写者(TestWriter)的互补作用,而能力足够强的编码大语言模型应能在这两方面都表现出色。

 

漏洞修复者与测试编写者遵循相似的工作流程:二者均需先找到需要编辑的正确文件,再进行代码更新(无论是修正脆弱的实现逻辑,还是插入单元测试函数)。因此,针对这两种角色,Kimi-Dev-72B 采用了相同的极简框架,仅包含两个阶段:(1)文件定位;(2)代码编辑。漏洞修复者与测试编写者的双重设计,构成了 Kimi-Dev-72B 的核心基础。

训练中期


为了增强 Kimi-Dev-72B 作为漏洞修复者(BugFixer)和测试编写者(TestWriter)的先验能力,研发团队采用了约 1500 亿高质量真实世界数据进行中期训练。

 

它们以 Qwen 2.5-72B 基础模型为起点,收集了数百万条 GitHub 问题与 PR 提交记录作为中期训练数据集。该数据方案经过精心构建,旨在让 Kimi-Dev-72B 学习人类开发者如何基于 GitHub 问题进行推理、编写代码修复方案及单元测试。研发团队还执行了严格的数据净化处理,排除了 SWE-bench Verified 中的所有代码库。中期训练充分强化了基础模型在实际漏洞修复和单元测试方面的知识,使其成为后续强化学习(RL)训练更优的起点。

 

强化学习

通过适当的中期训练和 SFT,Kimi-Dev-72B 在文件本地化方面表现出色。因此,强化学习阶段专注于提升其代码编辑能力。

 

Kimi-Dev-72B 使用了 Kimi k1.5 中描述的策略优化方法,该方法在推理任务中表现出色。对于 SWE-bench Verified,有三个关键设计值得重点关注:

 

  • 仅基于结果的奖励。研发团队仅使用 Docker 的最终执行结果(0 或 1)作为奖励,训练期间不采用任何基于格式或过程的奖励。

  • 高效的提示集。研发团队过滤掉模型在多样本评估下成功率为零的提示,从而更有效地利用大批量。此外,他们还采用课程学习法,引入新的提示,逐步提高任务难度。

  • 正例强化。在训练的最后阶段,研发团队将之前迭代中最近成功的样本纳入当前批次。这有助于模型增强成功模式并提升性能。

 

Kimi-Dev-72B 通过使用高度并行、强大且高效的内部代理基础设施,从可扩展数量的问题解决任务的训练中受益匪浅。

 

经过强化学习后,Kimi-Dev-72B 能够同时掌握 BugFixer 和 TestWriter 的角色。在测试过程中,它会采用自我博弈机制,协调自身 Bug 修复和测试编写的能力。



BugFixer 和 TestWriter 之间的测试时自我对弈。

 

每个问题最多可生成 40 个补丁候选和 40 个测试候选(按照标准无代理设置),可以观察到测试时间自玩的扩展效应。

 

参考链接:

 

https://www.reddit.com/r/LocalLLaMA/comments/1lcy6fc/deepseek_r1_0528_ties_claude_opus_4_for_1_in/

https://x.com/lmarena_ai/status/1934650635657367671

https://techcrunch.com/2025/04/30/study-accuses-lm-arena-of-helping-top-ai-labs-game-its-benchmark/

https://moonshotai.github.io/Kimi-Dev/

2025-06-17 17:001
用户头像
李冬梅 加V:busulishang4668

发布了 1095 篇内容, 共 709.8 次阅读, 收获喜欢 1245 次。

关注

评论

发布
暂无评论

云行| “智”绘首都发展新篇章,天翼云携手伙伴共创“京”彩未来!

天翼云开发者社区

人工智能 云计算 天翼云

AI技术在英语发音纠正中的应用

北京木奇移动技术有限公司

英语学习 AI技术 软件外包公司

区块链音乐NFT的开发框架

北京木奇移动技术有限公司

区块链技术 软件外包公司 音乐NFT

一位海外开发者的 OpenSPG KAG 实践分享

可信AI进展

知识图谱 大模型 rag RAG搭建

使用火语言RPA批量创建指纹浏览器

火语言RPA

NodeLocalDNS:优化集群DNS性能与可靠性的利器

代码忍者

智慧党建系统(源码+文档+部署+讲解)

深圳亥时科技

面试必问!项目高频面试题解析

王中阳Go

面试 后端

25年你还不知道什么是云管平台吗?来这里看看!

行云管家

云计算 云服务 云管平台

显卡危机的解决方案,全面解析ToDesk云电脑:服务配置与应用场景探索

小喵子

云电脑 云游戏 云电竞

人工智能伦理困境:技术发展的界限在哪里?

天津汇柏科技有限公司

AI 人工智能

kookeey功能上新 | 动态线路美国新增51个二级地区

kookeey代理严选

亚马逊 海外直播专线 tiktok直播 跨境电商运营 海外网络连接

AI技术在评估英语学习的应用

北京木奇移动技术有限公司

AI技术 AI教育 软件外包公司

镜舟科技荣登《2024 中国大数据产业年度「国产化」优秀代表厂商》榜单!

镜舟科技

开源 数据分析 分析型数据库 StarRocks 湖仓

Premiere Pro 2024 新功能 pr2024破解版安装包-Mac&win

Rose

苹果电脑音乐创作工具推荐!Logic Pro X Mac中文最新版功能介绍

Rose

网络电视客户端 EyeTV for mac注册版 4.0.0

Rose

警务协同办公系统(源码+文档+部署+讲解)

深圳亥时科技

京东商品视频数据接口(JD.item_video)丨京东API接口指南

tbapi

京东API接口 京东商品视频接口

CATO:黄油猫 CATO: Buttered Cat for Mac(趣味解谜游戏)

Rose

鸿蒙NEXT使用request模块实现本地文件上传

威哥爱编程

鸿蒙 HarmonyOS ArkTS HarmonyOS NEXT HarmonyOS5.0

京东JD商品详情原数据API接口的开发、运用与收益

科普小能手

数据挖掘 数据分析 电商 京东 API 接口

镜舟科技2024年度回顾,坚持长期价值,进一步实现商业突破

镜舟科技

开源 数据分析 StarRocks 镜舟科技

photoshop2022安装教程及ps2022激活补丁-Mac&win

Rose

如何用一张二维码展示图文并茂的产品画册?内附详细制作教程!

草料二维码

二维码 草料二维码 产品画册 产品二维码 电子图册

AI技术在英语学习中的应用

北京木奇移动技术有限公司

英语学习 AI技术 软件外包公司

商机信息平台(源码+文档+部署+讲解)

深圳亥时科技

FoneDog iPhone Cleaner for Mac(ios系统清理工具)激活版

Rose

谷云科技iPaaS V7.0+企业级AI Agent产品全新发布

RestCloud

API 数据集成 ipaas AIAgent

利用GPU Operator快速构建Kubernetes中的GPU加速环境

代码忍者

Claude时代终结?LMArena实测DeepSeek R1编程得分超Opus 4,但月暗称其新模型更胜一筹_生成式 AI_李冬梅_InfoQ精选文章