10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

苹果开源扩散编码模型 DiffuCoder

  • 2025-07-30
    北京
  • 本文字数:1122 字

    阅读完需:约 4 分钟

大小:560.61K时长:03:11
苹果开源扩散编码模型DiffuCoder

苹果开源了DiffuCoder,这是一个针对编程任务微调的扩散大语言模型(dLLM)。DiffuCoder 基于Qwen-2.5-Coder,并在几个编程基准测试中超越了其他特定于代码的 LLM。

 

与典型的自回归方式“从左到右”生成文本的 LLM 不同,dLLM 通过并行去噪整个序列来生成文本,这意味着可以更快地生成。苹果的研究人员开发了 DiffuCoder,以便他们能够研究 dLLM 微调和推理的最佳策略。在他们的研究中,他们开发了一种称为耦合-GRPO 的组相关策略优化(Group Relative Policy Optimization,GRPO)微调技术的变体,这提高了模型的性能。在MBPP编程基准测试中,DiffuCoder 超越了Gemini Diffusion,并与 GPT-4o“竞争力”相当。根据苹果的说法,

 

通过使用一种新颖的耦合采样策略,我们的方法提供了更准确的似然估计。耦合-GRPO 显著提升了 DiffuCoder 的性能,证明了与扩散原则一致的强化学习方法的有效性。我们的工作使社区对 dLLM 有了更深入理解,并为未来在复杂推理和生成任务中探索 dLLM 奠定了坚实的基础。

 

大多数 LLM,如 OpenAI 的 GPT 模型,通过预测一个单一的下一个标记来追加到序列中,然后以新序列作为输入反馈,以自回归的方式生成文本。dLLM 采取的方法类似于 DALL-E 等图像生成模型:它们从一个嘈杂的序列开始,并迭代地去噪。这使得 dLLM 比自回归 LLM 生成输出要快得多:在 Gemini Diffusion 的案例中快了五倍。此外,它们不受从左到右产生文本的限制。相反,它们可以执行“全局内容规划”,这在编码任务中可能是一个优势。

 

苹果研究的一个关键成果是创建了自回归性(AR-ness)指标,该指标衡量模型遵循 LLM 从左到右模式的程度。他们发现 dLLM 通常表现出高度的 AR-ness,这可能是由于文本生成的固有性质。然而,在生成代码时,这个指标会下降。

 

他们还发现,增加采样温度会影响模型的 AR-ness,使模型在选择标记和标记顺序方面更加灵活。这提高了其在编程基准测试中的“pass@k”得分。研究人员指出,过去的工作表明,RL 微调模型的推理能力“受到基础模型的 pass@k 采样能力的约束”,这表明 DiffuCoder 有“巨大”的改进潜力。这促使了他们开发了耦合-GRPO RL 训练,这确实提高了 DiffuCoder 的基准测试结果,在某些情况下提高了 6 个百分点以上。

 

在 Hacker News 上的讨论中,一位用户写道

 

扩散模型在并行化和速度方面带来了很多好处;在我看来,这种架构比严格的从左到右生成更适合编码……总体而言,这很有趣。在某种程度上,这些本地模型将足够好,可以用于“实际工作”,并且它们将迅速被 API 提供商采用。苹果的游戏是在设备上的;我想我们会在明年看到它们的后代和 Xcode 一起发布,作为编码体验的一部分。

 

DiffuCoder的代码可以在 GitHub 上找到。模型文件可以从 Huggingface 下载。

 

原文链接:

https://www.infoq.com/news/2025/07/apple-diffucoder/

2025-07-30 13:004114

评论

发布
暂无评论

开发一套高容错分布式系统

JAVA活菩萨

Java 程序员 后端 java程序员 java编程

web前端培训课程哪个比较好?

小谷哥

目标检测的发展与现状

阿炜小菜鸡

目标检测 8月月更

全新出品!Github总榜排行第七的SpringCloud生态全栈笔记我粉了

JAVA活菩萨

Java 程序员面试 大厂技能 秋招 大厂面经

字节二面被问到mysql事务与锁问题,我蚌埠住了

程序员小毕

Java MySQL 数据库 程序员 面试

【web自动化测试】Playwright快速入门,5分钟上手

和牛

自动化 测试 playwright Python. 8月月更

WEB前端面授培训课程

小谷哥

视频目标检测

阿炜小菜鸡

8月月更 视频目标检测

OpenInfra Days China 2022|SelectDB与你共享 Apache Doris 在互联网广告业务中的实践

SelectDB

MySQL 数据库 数据仓库 数据湖 Doris

【K8s入门必看】第三篇 —— K8s必备基础概念大梳理

Albert Edison

Docker Kubernetes 容器 云原生 8月月更

服务器

武师叔

8月月更

如何模拟后台API调用场景,很细!

Liam

前后端分离 开发 Postman API 前后端协作

荣耀互联对外开放,赋能智能硬件合作伙伴,促进全场景生态产品融合

荣耀开发者服务平台

框架整合(二)- 使用Apache ShardingSphere实现数据分片

大菠萝蜜

MySQL 8月月更

【注册荣耀开发者】赢【荣耀70】手机

荣耀开发者服务平台

开发者 手机 活动 应用 荣耀

企业即时通讯软件有哪些功能?对企业有什么帮助?

BeeWorks

数据库治理的探索与实践

阿里巴巴云原生

数据库 阿里云 微服务 云原生

正畸MIA微种植体支抗技术中国10周年交流会在沈举办

联营汇聚

《机器学习的随机矩阵方法》

计算机与AI

Python 机器学习 数学

《机器学习理论到应用》电子书免费下载

计算机与AI

Python 机器学习 数据科学

JWT主动校验Token是否过期

源字节1号

软件开发 后端开发

深圳大数据培训多长时间可以找工作

小谷哥

运力升级助力算力流转,中国数字经济的加速时刻

脑极体

什么是内部客户服务?

Geek_da0866

经验分享|盘点企业进行知识管理时的困惑类型

Baklib

荣耀发布开发者服务平台,智慧生态合作提速

荣耀开发者服务平台

基于 eBPF 的 Kubernetes 可观测实践

阿里巴巴云原生

阿里云 Kubernetes 云原生 可观测

荣科科技:未来主要围绕在线互联化、生态化和智能大数据运营这三个方向发展

BeeWorks

倒数 3 天|RocketMQ 能力全景图即将发布,定义下一代消息队列未来方向

阿里巴巴云原生

阿里云 RocketMQ 云原生 消息队列

基于YOLOV5行人跌倒检测实验

阿炜小菜鸡

8月月更 行人检测

苹果开源扩散编码模型DiffuCoder_AI&大模型_Anthony Alford_InfoQ精选文章