50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

苹果开源扩散编码模型 DiffuCoder

  • 2025-07-30
    北京
  • 本文字数:1122 字

    阅读完需:约 4 分钟

大小:560.61K时长:03:11
苹果开源扩散编码模型DiffuCoder

苹果开源了DiffuCoder,这是一个针对编程任务微调的扩散大语言模型(dLLM)。DiffuCoder 基于Qwen-2.5-Coder,并在几个编程基准测试中超越了其他特定于代码的 LLM。

 

与典型的自回归方式“从左到右”生成文本的 LLM 不同,dLLM 通过并行去噪整个序列来生成文本,这意味着可以更快地生成。苹果的研究人员开发了 DiffuCoder,以便他们能够研究 dLLM 微调和推理的最佳策略。在他们的研究中,他们开发了一种称为耦合-GRPO 的组相关策略优化(Group Relative Policy Optimization,GRPO)微调技术的变体,这提高了模型的性能。在MBPP编程基准测试中,DiffuCoder 超越了Gemini Diffusion,并与 GPT-4o“竞争力”相当。根据苹果的说法,

 

通过使用一种新颖的耦合采样策略,我们的方法提供了更准确的似然估计。耦合-GRPO 显著提升了 DiffuCoder 的性能,证明了与扩散原则一致的强化学习方法的有效性。我们的工作使社区对 dLLM 有了更深入理解,并为未来在复杂推理和生成任务中探索 dLLM 奠定了坚实的基础。

 

大多数 LLM,如 OpenAI 的 GPT 模型,通过预测一个单一的下一个标记来追加到序列中,然后以新序列作为输入反馈,以自回归的方式生成文本。dLLM 采取的方法类似于 DALL-E 等图像生成模型:它们从一个嘈杂的序列开始,并迭代地去噪。这使得 dLLM 比自回归 LLM 生成输出要快得多:在 Gemini Diffusion 的案例中快了五倍。此外,它们不受从左到右产生文本的限制。相反,它们可以执行“全局内容规划”,这在编码任务中可能是一个优势。

 

苹果研究的一个关键成果是创建了自回归性(AR-ness)指标,该指标衡量模型遵循 LLM 从左到右模式的程度。他们发现 dLLM 通常表现出高度的 AR-ness,这可能是由于文本生成的固有性质。然而,在生成代码时,这个指标会下降。

 

他们还发现,增加采样温度会影响模型的 AR-ness,使模型在选择标记和标记顺序方面更加灵活。这提高了其在编程基准测试中的“pass@k”得分。研究人员指出,过去的工作表明,RL 微调模型的推理能力“受到基础模型的 pass@k 采样能力的约束”,这表明 DiffuCoder 有“巨大”的改进潜力。这促使了他们开发了耦合-GRPO RL 训练,这确实提高了 DiffuCoder 的基准测试结果,在某些情况下提高了 6 个百分点以上。

 

在 Hacker News 上的讨论中,一位用户写道

 

扩散模型在并行化和速度方面带来了很多好处;在我看来,这种架构比严格的从左到右生成更适合编码……总体而言,这很有趣。在某种程度上,这些本地模型将足够好,可以用于“实际工作”,并且它们将迅速被 API 提供商采用。苹果的游戏是在设备上的;我想我们会在明年看到它们的后代和 Xcode 一起发布,作为编码体验的一部分。

 

DiffuCoder的代码可以在 GitHub 上找到。模型文件可以从 Huggingface 下载。

 

原文链接:

https://www.infoq.com/news/2025/07/apple-diffucoder/

2025-07-30 13:004200

评论

发布
暂无评论

算法讲解|贪心算法的理解与分析

Java架构师迁哥

MySQL 连接为什么挂死了?

Java架构师迁哥

并发编程Bug的源头-原子性

996小迁

Java 程序员 架构 面试 并发编程

React 灵魂 23 问

局外人

Java 大前端 React

Redis 分布式锁原理看这篇就够了, 循循渐进

马丁玩编程

redis 架构 分布式 分布式锁

区块链的新信任模式将重塑传统金融业

CECBC

区块链 资产流动性

2021年Java程序员请先把这几项硬技能熟悉掌握,再想着跳槽拿高薪

Java架构之路

Java 编程 程序员 架构 面试

Spring Cloud Config 实现分布式配置中心

AI乔治

Java 架构 微服务 Spring Cloud

给,你们想要的内存溢出MAT排查工具

田维常

内存溢出

《ZooKeeper分布式过程协同技术详解》.pdf

田维常

电子书

看“区块链”如何为外贸企业融资

CECBC

区块链 银行

4年Java开发经验,从传统公司裸辞之后足足准备了3个月,终于拿到美团、京东、字节跳动等大厂offer

Java架构之路

Java 程序员 架构 面试 编程语言

架构师系列之6: python实现一致性hash

桃花原记

《使用C ++的数据结构和程序设计》限时免费下载

计算机与AI

c++

MyBatis 面试题(附答案解析)

比伯

Java 大数据 编程 架构 面试

接口测试之json中的key获取

测试人生路

接口测试

奉劝各位准备面试的Java程序员耗子尾汁,赶紧扔掉网上那些千篇一律的面试题

Java架构之路

Java 程序员 架构 面试 编程语言

五、一致性哈希算法

Geek_28b526

架构师训练营第 1 期 - 第九周作业

Todd-Lee

极客大学架构师训练营

第五周 - 作业

leo

极客大学架构师训练营

网络冲浪信任危机频发,区块链能否破局?

CECBC

区块链 征信透明

阿里内部“新鲜出炉”手慢无!首发面试终极指南V3.0,符合一线大厂面试知识点+面试题

Java架构追梦

Java 阿里巴巴 架构 面试 分布式

Nacos实战及其源码分析

Fox666

Spring Cloud nacos spring cloud alibaba

第五周-笔记

leo

极客大学架构师训练营

一张图片一份文档,我想redis就到这里吧,剩下的只有实践了

小Q

Java redis 学习 编程 面试

并发编程Bug的源头-原子性

Java架构师迁哥

LeetCode 热题 - 递归

helbing

LeetCode

架构师训练营第 1 期 - 第九周总结

Todd-Lee

极客大学架构师训练营

架构师训练营第 1 期第 9 周作业

好吃不贵

极客大学架构师训练营

用 Python 实现定时自动化收取蚂蚁森林能量

Python小二

Python

接口的幂等性的多重考虑,你会了吗?

moon聊技术

Java 接口

苹果开源扩散编码模型DiffuCoder_AI&大模型_Anthony Alford_InfoQ精选文章