Agentica项目的开源DeepCoder模型在编码基准上优于OpenAI的O1_AI&大模型_Anthony Alford



 写点什么



大小：609.86K时长：03:28

Agentica项目的开源DeepCoder模型在编码基准上优于OpenAI的O1

Agentica项目和Together AI发布了DeepCoder-14B-Preview，这是一个基于Deepseek-R1-Distilled-Qwen-14B的开源 AI 编程模型。该模型在LiveCodeBench上的通过率达到了 60.6%，超过了 OpenAI 的 o1 模型，性能与 o3-mini 相当。

DeepCoder-14B-Preview 是使用强化学习（RL）在 24K 编码问题数据集上对 Deepseek 模型进行微调的。开发人员修改了verl分布式 RL 框架，将端到端训练效率提高了 2 倍。他们发布了与创建模型相关的所有构件：代码、数据、训练日志、以及对 verl 的改进。他们在几个编码基准（包括 LiveCodeBench、Codeforces和HumanEval）以及数学基准AIME2024上评估了该模型。DeepCoder 在所有这些测试中表现出色，得分“可比”甚至优于 o1 和 o3-mini 等闭源推理模型。项目团队表示：

我们的目标是对大语言模型（LLM）的 RL 训练民主化......通过完全共享我们的数据集、代码和训练配方，我们赋予社区复制我们工作的能力，并使所有人都可以使用 RL 训练。我们相信推进 RL 扩展是一个集体的、社区驱动的努力，我们欢迎开源贡献和赞助。让我们携手推动 RL 在 LLM 推理——以及更广泛的领域——的前沿！

DeepCoder 团队发布了他们训练过程的一些细节以及他们克服的几个问题。首先是缺乏针对编码问题的“高质量、可验证”的训练数据：几个流行的数据集“有噪声或包含不可验证的问题”，或者对于模型来说太容易解决。为了创建训练数据集，团队开发了一个自动化流程，只保留有可验证解决方案和至少五个单元测试的问题。

他们还解决了 RL 训练中的一个瓶颈问题“采样”，即对正在训练的模型进行推理。解决方案是将流程管道化：并行运行训练和推理，并使用推理输出作为下一批训练的输入。这将训练迭代时间减少了 1.4 倍。

LiveCodeBench Pass@1 准确率与模型大小对比。图片来源： Together AI博客

在 Reddit 上关于该模型的讨论中，一位用户写道：

我刚刚在 olama 上试用了 14b 版本的 q4 量化版，我不得不说我印象非常深刻。这绝对是我在这种大小中尝试过的最好的模型。我需要更多的测试来得出结论，它是否真的和 o3-mini low（特别是因为我只测试过 o3-mini medium）一样好，但在我对日常任务的初步测试中，我感觉它确实超过了 40。

Andrew Ng 的新闻通讯记者 The Batch 赞扬了DeepCoder，说道：

将强化学习应用于编码是有效的，但它有两个大问题：（i）可验证代码的训练示例相对稀缺，（ii）计算代码的奖励信号非常耗时，因为它需要评估许多测试用例。DeepCoder-14B-Preview 的优化减少了这种复杂性，将强化学习训练从几个月缩短到几周。这些优化内置于 Verl-pipeline 中，这是 Together.AI 和 Agentica 提供的一个开源 RL 库，为开发强化学习提供了一个强大的模型训练工具。

向 DeepCoder 团队致敬，他们开源了他们的推理配方！一些公司已经发展出了执行 RL 的专业知识，但许多团队仍然在成功实施方面遇到困难。RL 训练方法和数据管理技术的开放配方对于推动该领域的发展至关重要。

DeepCoder-14B-Preview 的训练代码可在 GitHub 上找到。模型文件可以从 Huggingface 下载。

原文链接：

https://www.infoq.com/news/2025/06/deepcoder-outperforms-openai/

发布

暂无评论

创作场景

Agentica 项目的开源 DeepCoder 模型在编码基准上优于 OpenAI 的 O1

评论

焱融科技发布国产化全闪新品 F8000XC

【故障处理】统计信息收集失败， enconding failed

sync_diff_inspector 表结构比较功能探索

【第八届 TiDB Hackathon】AI 创新应用 TiDB 黑客马拉松正式开启，一起来用 TiDB 构建未来的 AI 创新应用，瓜分超￥210,000 奖金池！

IDC报告 | 飞渡科技位列数字孪生平台市场份额第一，以20.7%的高占比领跑行业市场

硅纪元AI应用推荐 | 豆包整容成了浏览器，让你的电脑秒变AI PC

飞渡科技数字孪生平台赋能千行百业——飞渡科技2024产品发布会成功举办

淘宝API接口测试全攻略

Web网页端IM产品RainbowChat-Web的v7.1版已发布

探讨大模型前沿技术与商业化落地 |【奇绩潜空间】第3季开始报名

从"小白"到"大白"：我的TiDB一周年成长记录

Dashboard 热力图显示不准？如何定位热点相关sql ？

一文了解 PingCAP Clinic 诊断服务

一次 sysbench 长稳测试过程中连接中断的问题分析排查

智谱AI再放“大招”，30秒将任意文字生成视频

数业智能心大陆：定制你的专属心理健康方案

写一篇最近用DM的总结

一次 sysbench 长稳测试过程中锁丢失导致事务提交失败的问题分析排查

TikTok批量养号方法

在港发行稳定币，京东为何跟加密市场做起了“兄弟”？

硅纪元视角 | 亚马逊AI芯片挑战英伟达，承诺最高50%成本节省

贝锐蒲公英智能选路：跨地区远程访问更快、更稳、更可靠

为什么企业需要IT外包服务

基于开源IM即时通讯框架MobileIMSDK：RainbowChat v11.6版已发布

和鲸全力支持！人工智能赋课，吉林大学这样建设

淘宝商品详情API详解：深度解码商品规格参数

创作场景

Agentica 项目的开源 DeepCoder 模型在编码基准上优于 OpenAI 的 O1

评论

推荐阅读

电子书

大厂实战PPT下载