写点什么

Agentica 项目的开源 DeepCoder 模型在编码基准上优于 OpenAI 的 O1

  • 2025-06-20
    北京
  • 本文字数:1250 字

    阅读完需:约 4 分钟

大小:609.86K时长:03:28
Agentica项目的开源DeepCoder模型在编码基准上优于OpenAI的O1

Agentica项目和Together AI发布了DeepCoder-14B-Preview,这是一个基于Deepseek-R1-Distilled-Qwen-14B的开源 AI 编程模型。该模型在LiveCodeBench上的通过率达到了 60.6%,超过了 OpenAI 的 o1 模型,性能与 o3-mini 相当。

 

DeepCoder-14B-Preview 是使用强化学习(RL)在 24K 编码问题数据集上对 Deepseek 模型进行微调的。开发人员修改了verl分布式 RL 框架,将端到端训练效率提高了 2 倍。他们发布了与创建模型相关的所有构件:代码、数据、训练日志、以及对 verl 的改进。他们在几个编码基准(包括 LiveCodeBench、CodeforcesHumanEval)以及数学基准AIME2024上评估了该模型。DeepCoder 在所有这些测试中表现出色,得分“可比”甚至优于 o1 和 o3-mini 等闭源推理模型。项目团队表示:

 

我们的目标是对大语言模型(LLM)的 RL 训练民主化......通过完全共享我们的数据集、代码和训练配方,我们赋予社区复制我们工作的能力,并使所有人都可以使用 RL 训练。我们相信推进 RL 扩展是一个集体的、社区驱动的努力,我们欢迎开源贡献和赞助。让我们携手推动 RL 在 LLM 推理——以及更广泛的领域——的前沿!

 

DeepCoder 团队发布了他们训练过程的一些细节以及他们克服的几个问题。首先是缺乏针对编码问题的“高质量、可验证”的训练数据:几个流行的数据集“有噪声或包含不可验证的问题”,或者对于模型来说太容易解决。为了创建训练数据集,团队开发了一个自动化流程,只保留有可验证解决方案和至少五个单元测试的问题。

 

他们还解决了 RL 训练中的一个瓶颈问题“采样”,即对正在训练的模型进行推理。解决方案是将流程管道化:并行运行训练和推理,并使用推理输出作为下一批训练的输入。这将训练迭代时间减少了 1.4 倍。


LiveCodeBench Pass@1 准确率与模型大小对比。图片来源: Together AI博客

 

在 Reddit 上关于该模型的讨论中,一位用户写道

 

我刚刚在 olama 上试用了 14b 版本的 q4 量化版,我不得不说我印象非常深刻。这绝对是我在这种大小中尝试过的最好的模型。我需要更多的测试来得出结论,它是否真的和 o3-mini low(特别是因为我只测试过 o3-mini medium)一样好,但在我对日常任务的初步测试中,我感觉它确实超过了 40。

 

Andrew Ng 的新闻通讯记者 The Batch 赞扬了DeepCoder,说道:

 

将强化学习应用于编码是有效的,但它有两个大问题:(i)可验证代码的训练示例相对稀缺,(ii)计算代码的奖励信号非常耗时,因为它需要评估许多测试用例。DeepCoder-14B-Preview 的优化减少了这种复杂性,将强化学习训练从几个月缩短到几周。这些优化内置于 Verl-pipeline 中,这是 Together.AI 和 Agentica 提供的一个开源 RL 库,为开发强化学习提供了一个强大的模型训练工具。

 

向 DeepCoder 团队致敬,他们开源了他们的推理配方!一些公司已经发展出了执行 RL 的专业知识,但许多团队仍然在成功实施方面遇到困难。RL 训练方法和数据管理技术的开放配方对于推动该领域的发展至关重要。

 

DeepCoder-14B-Preview 的训练代码可在 GitHub 上找到。模型文件可以从 Huggingface 下载。

 

原文链接:

https://www.infoq.com/news/2025/06/deepcoder-outperforms-openai/

2025-06-20 13:001

评论

发布
暂无评论

Flutter 扩展NestedScrollView (二)列表滚动同步解决

android 程序员 移动开发

Flutter完整开发实战详解(四、 Redux、主题,某大厂开发者对于Android多线程的总结

android 程序员 移动开发

Flutter-可以缩放拖拽的图片,安卓内存优化管理器

android 程序员 移动开发

Flutter之全埋点思考与实现,跨平台app开发工具

android 程序员 移动开发

Flutter学习之事件循环机制、数据库、网络请求,kotlin开源项目实战

android 程序员 移动开发

Flutter完整开发实战详解(三、 打包与填坑篇)_ 掘金技术征文

android 程序员 移动开发

Flutter 插件使用必知必会,我的阿里春招之路分享

android 程序员 移动开发

腾讯云发布微搭生态开放计划,与合作伙伴携手共创产业未来

科技热闻

Flutter图表库fl_chart的使用解析(二)-折线图,Android最牛教材

android 程序员 移动开发

Flutter如何和Native通信-Android视角,首发10万字Android开发实战文档

android 程序员 移动开发

Flutter实战(三)检验Flutter的跨平台能力,flutter菜鸟教程

android 程序员 移动开发

「免费开源」基于Vue和Quasar的前端SPA项目crudapi零代码开发平台后台管理系统实战之之拖拽表单定制(十六)

crudapi

Vue 零代码 crudapi quasar 拖拽表单

Flutter图片加载原理与缓存,安卓高级开发工程师面试题

android 程序员 移动开发

Flutter中的http网络请求,kotlin程序

android 程序员 移动开发

Flutter实战详解--高仿好奇心日报,kotlin核心编程

android 程序员 移动开发

Flutter嵌套深?扩展函数了解一下,面试字节跳动Android工程师该怎么准备

android 程序员 移动开发

上万规模数据湖如何在实验室测试

华为云开发者联盟

容器 数据湖 测试 MRS 集群

Flutter-视频系列--图解-Android-原生集成-Flutter-Module

android 程序员 移动开发

腾讯云发布星星海智慧木系GA01,新一代基于AMD的企业级GPU卡“诞生”

科技热闻

Flutter动画 3 - Animation动画组,android物联网开发李天祥

android 程序员 移动开发

Redis 高可用篇:主从架构数据同步一致性原理

码哥字节

数据库 redis NoSQL 数据库 11月日更

Flutter 扩展NestedScrollView (二)列表滚动同步解决(1)

android 程序员 移动开发

Flutter 网络请求框架封装,android源码设计模式解析与实战

android 程序员 移动开发

Fedora又一次哑了,又如何?

吴脑的键客

fedora

Flutter 性能优化 Tips,Android攒了一个月的面试题及解答

android 程序员 移动开发

Flutter初学者之普通底部导航栏及自定义不规则底部导航栏的实现

android 程序员 移动开发

Flutter-可以缩放拖拽的图片(1),android最新开发语言

android 程序员 移动开发

Flutter-实现-App-内更新安装包,让人茅塞顿开

android 程序员 移动开发

WorkPlus政企消息协作解决方案:一站式处理、安全可靠

BeeWorks

百度爱番番数据分析体系的架构与实践

百度Geek说

架构 数据分析 后端

Flutter 扩展NestedScrollView (二)列表滚动同步解决(2)

android 程序员 移动开发

Agentica项目的开源DeepCoder模型在编码基准上优于OpenAI的O1_AI&大模型_Anthony Alford_InfoQ精选文章