AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

Agentica 项目的开源 DeepCoder 模型在编码基准上优于 OpenAI 的 O1

  • 2025-06-20
    北京
  • 本文字数:1250 字

    阅读完需:约 4 分钟

大小:609.86K时长:03:28
Agentica项目的开源DeepCoder模型在编码基准上优于OpenAI的O1

Agentica项目和Together AI发布了DeepCoder-14B-Preview,这是一个基于Deepseek-R1-Distilled-Qwen-14B的开源 AI 编程模型。该模型在LiveCodeBench上的通过率达到了 60.6%,超过了 OpenAI 的 o1 模型,性能与 o3-mini 相当。

 

DeepCoder-14B-Preview 是使用强化学习(RL)在 24K 编码问题数据集上对 Deepseek 模型进行微调的。开发人员修改了verl分布式 RL 框架,将端到端训练效率提高了 2 倍。他们发布了与创建模型相关的所有构件:代码、数据、训练日志、以及对 verl 的改进。他们在几个编码基准(包括 LiveCodeBench、CodeforcesHumanEval)以及数学基准AIME2024上评估了该模型。DeepCoder 在所有这些测试中表现出色,得分“可比”甚至优于 o1 和 o3-mini 等闭源推理模型。项目团队表示:

 

我们的目标是对大语言模型(LLM)的 RL 训练民主化......通过完全共享我们的数据集、代码和训练配方,我们赋予社区复制我们工作的能力,并使所有人都可以使用 RL 训练。我们相信推进 RL 扩展是一个集体的、社区驱动的努力,我们欢迎开源贡献和赞助。让我们携手推动 RL 在 LLM 推理——以及更广泛的领域——的前沿!

 

DeepCoder 团队发布了他们训练过程的一些细节以及他们克服的几个问题。首先是缺乏针对编码问题的“高质量、可验证”的训练数据:几个流行的数据集“有噪声或包含不可验证的问题”,或者对于模型来说太容易解决。为了创建训练数据集,团队开发了一个自动化流程,只保留有可验证解决方案和至少五个单元测试的问题。

 

他们还解决了 RL 训练中的一个瓶颈问题“采样”,即对正在训练的模型进行推理。解决方案是将流程管道化:并行运行训练和推理,并使用推理输出作为下一批训练的输入。这将训练迭代时间减少了 1.4 倍。


LiveCodeBench Pass@1 准确率与模型大小对比。图片来源: Together AI博客

 

在 Reddit 上关于该模型的讨论中,一位用户写道

 

我刚刚在 olama 上试用了 14b 版本的 q4 量化版,我不得不说我印象非常深刻。这绝对是我在这种大小中尝试过的最好的模型。我需要更多的测试来得出结论,它是否真的和 o3-mini low(特别是因为我只测试过 o3-mini medium)一样好,但在我对日常任务的初步测试中,我感觉它确实超过了 40。

 

Andrew Ng 的新闻通讯记者 The Batch 赞扬了DeepCoder,说道:

 

将强化学习应用于编码是有效的,但它有两个大问题:(i)可验证代码的训练示例相对稀缺,(ii)计算代码的奖励信号非常耗时,因为它需要评估许多测试用例。DeepCoder-14B-Preview 的优化减少了这种复杂性,将强化学习训练从几个月缩短到几周。这些优化内置于 Verl-pipeline 中,这是 Together.AI 和 Agentica 提供的一个开源 RL 库,为开发强化学习提供了一个强大的模型训练工具。

 

向 DeepCoder 团队致敬,他们开源了他们的推理配方!一些公司已经发展出了执行 RL 的专业知识,但许多团队仍然在成功实施方面遇到困难。RL 训练方法和数据管理技术的开放配方对于推动该领域的发展至关重要。

 

DeepCoder-14B-Preview 的训练代码可在 GitHub 上找到。模型文件可以从 Huggingface 下载。

 

原文链接:

https://www.infoq.com/news/2025/06/deepcoder-outperforms-openai/

2025-06-20 13:006642

评论

发布
暂无评论

选择住宅ip代理还是数据中心代理?

巨量HTTP

代理IP http代理

[文本提取]基于Apache Tika的文本内容提取

alexgaoyh

Java nlp tika 文本提取 内容提取

"开源奥斯卡”认可!天谋科技 IoTDB 企业版荣获 OSCAR 开源尖峰案例开源技术创新(商业产品)奖

Apache IoTDB

Golang微服务框架Kratos应用NSQ消息队列

golang nsq Kratos #微服务

CIIS 2023丨聚焦文档图像处理前沿领域,合合信息AI助力图像处理与内容安全保障

合合技术团队

人工智能 文档 智能 多模态 大模型

杭州悦数加入龙蜥社区,共同探索图数据库的未来

OpenAnolis小助手

数据库 开源 操作系统 龙蜥社区 杭州悦数

Golang微服务框架Kratos应用NATS消息队列

golang 消息队列 Kratos #微服务

Golang微服务框架Kratos应用Kafka消息队列

golang kafka Kratos 消息列队 #微服务

如何出色的进行“自我介绍”?

王磊

Java java面试

Golang微服务框架Kratos应用MQTT消息队列

golang mqtt Kratos #微服务

Golang微服务框架Kratos应用RocketMQ消息队列

golang RocketMQ 消息队列 Kratos #微服务

IPA文件重签名教程:使用Ipa Guard进行签名和安装到设备的详细步骤

Linux 爱好者线下沙龙:LLUG 2023 深圳硬核来袭 | 第三站

OpenAnolis小助手

沙龙 龙蜥社区 开源操作系统 LLUG Linux中国

华为“轻松打卡全世界”活动提供一站式出境服务,全球酒店预订85折起

最新动态

医疗虚拟仿真和虚拟现实有什么区别?哪个更好?

3DCAT实时渲染

虚拟现实 虚拟仿真 实时云渲染

沉浸式体验与 AI 数智助理一起工作的一天

Kyligence

人工智能 数据分析

《操作系统实战 45 讲》笔记5——接口与虚化

袁世超

操作系统 Cosmos LMOS

C++输入流和输出流介绍

芯动大师

【GO】LGTM_Grafana_gin_trace中间件(3)_代码实操

非晓为骁

golang Grafana Trace gin tempo

狂热过后,RPA到底是什么?

金小K

RPA RPA评测 RPAxAI

TiDB 7.1.0 LTS 特性解读丨关于资源管控 (Resource Control) 应该知道的 6 件事

PingCAP

数据库 TiDB

Golang微服务框架Kratos应用Pulsar消息队列

golang pulsar Kratos #微服务

华为云,让AI算力入山河

脑极体

云计算

使用 Databend 加速 Hive 查询

Databend

API网关是如何提升API接口安全管控能力的?

不思jo

安全 API

多模态 多引擎 超融合 新生态!2023亚信科技AntDB数据库8.0产品发布

亚信AntDB数据库

AntDB 国产数据库 AntDB数据库

演讲实录:DataFun 垂直开发者社区基于指标平台自主洞察北极星指标

Kyligence

数据分析 指标中台

Golang微服务框架Kratos应用RabbitMQ消息队列

golang RabbitMQ Kratos #微服务

下一个时代的船舵,李彦宏握住AI原生应用

脑极体

AI

Agentica项目的开源DeepCoder模型在编码基准上优于OpenAI的O1_AI&大模型_Anthony Alford_InfoQ精选文章