研究者尝试揭示扩散模型创造力的起源_AI&大模型_Sergio De Simone_InfoQ精选文章

AI实践哪家强？来 AICon，解锁技术前沿，探寻产业新机！了解详情 



 写点什么

登录/注册



大小：506.40K时长：02:52

研究者尝试揭示扩散模型创造力的起源

斯坦福大学研究人员 Mason Kamb 与 Surya Ganguli 在最新论文中提出了一种可能解释扩散模型创造力的机制。他们建立的数学模型表明，这种创造力是此类模型利用去噪过程生成图像时必然产生的确定性结果。

简而言之，扩散模型的训练本质是从各向同性高斯噪声分布中挖掘图像，该噪声分布源自有限训练图像集的处理结果。这一过程通过逐步去除高斯噪声实现，具体方式是学习一个指向概率递增梯度方向的评分函数。

若神经网络能精确掌握这个理想评分函数，就能完美逆转前向的过程。但这样一来，也只能是将高斯噪声转化为记忆中的训练样本图像。

这意味着，要生成超出训练集分布范围的新图像，模型必须无法完全掌握理想评分函数。对此的一种解释是：归纳偏置的存在可能更准确地描述了扩散模型在创造性生成新样本时的实际运作方式。

通过分析扩散模型是如何利用卷积神经网络（CNN）估算评分函数，研究者识别出两种关键偏置：平移等变性与局部性。平移等变性是指模型会反映输入图像的位移变化（输入图像平移几个像素，生成图像也会对应平移）；局部性则源于学习评分函数时使用的 CNN 结构只考虑输入像素的局部邻域，而非全局信息。

基于这些发现，研究者搭建了一个为优化等变性与局部性评分函数的数学模型，并将其称作是等变局部评分机（ELS）。

ELS 机是一组能计算去噪图像组合的方程式，研究者将其输出与在简化模型上训练的 ResNet、UNet 等扩散模型进行对比，发现“CNN 输出与 ELS 机输出呈现出显著且一致的量化吻合”，准确率约 90%以上（具体数值因模型和数据集而异）。

据我们所知，这是首个能以如此精度解析基于深度神经网络的生成模型创造行为的理论。重要的是，(E)LS 机对所有训练输出的解释力都远超 IS 机。

Ganguli 指出，他们的研究揭示了扩散模型如何“通过在新图像不同位置混合匹配训练集的局部图像块，形成一种局部拼贴式的创造力模型”。该理论还能解释扩散模型的典型错误（如生成多余手指或肢体），这些都是过度局部化导致的后果。

尽管结论颇具说服力，但初始研究排除了包含高度非局部自注意力层（SA）的扩散模型（因其违背了研究者的局部性假设）。针对这点，论文作者使用 ELS 机预测了基于 CIFAR-10 预训练的公开 UNet+SA 模型输出，发现其准确率仍显著高于基线 IS 机。

研究者表示，他们的成果证明局部性与等变性足以解释纯卷积扩散模型的创造力，并可为研究更复杂扩散模型奠定基础。研究团队还开源了实验中使用的扩散模型训练代码。

原文链接：

https://www.infoq.com/news/2025/07/diffusion-model-creativity/

评论

发布

暂无评论

3个轻量级物联网新品实验，带您深度体验IoT开发

华为云开发者联盟

物联网沙箱实验企业号九月金秋榜

大佬就是强！意外收获史诗级分布式资源，从基础到进阶，干货满满！

收到请回复

Java 云计算开源架构编程语言

融云云盘，不止于存储

融云 RongCloud

云盘云存储

DataLeap的Catalog系统近实时消息同步能力优化

字节跳动数据平台

大数据 kafka 数据治理实时同步数据研发

为啥是SQL？互联网投资回报比最高的技能是什么？

聊聊数据库主键那点事儿

面了个阿里拿38k出来的，让我见识到了基础顶端

Java java面试后端技术秋招八股文

技术分享| 分布式系统中服务注册发现组件的原理及比较

anyRTC开发者

音视频分布式系统

【微信小程序】页面导航详解

云原生底座之上，顺丰智慧供应链领跑的秘密

华为云开发者联盟

云计算云原生后端企业号九月金秋榜

SAP Cloud Application Programming 编程模型(CAP)的设计准则

CAP Cloud SAP Cloud Studio 9月月更

漏洞管理流程

漏洞修复漏洞管理企业号九月金秋榜

如何利用OpenHarmony ArkUI的Canvas组件实现涂鸦功能？

OpenHarmony开发者

SQL为什么历经半个世纪却经久不衰？

Java之static关键字的应用【工具类、代码块和单例】

static 9月月更实际应用

ApacheCon Asia 2022 精彩回顾 | 如何让更多人从大数据中获益？

两万字带你了解Java多线程（详细大总结）

马蹄链Dapp系统开发（智能合约）

薇電13242772558

如何进行 Apache Doris 集群 Docker 快速部署

数据库 Doris Docker 镜像安装 & 部署企业号九月金秋榜

中国的时区为什么是Asia/Shanghai，而不是Asia/Beijing？

TiFlash 源码阅读（九）TiFlash 中常用算子的设计与实现

#TiDB TiDB 源码解读

一文了解循环神经网络

华为云开发者联盟

人工智能语音识别企业号九月金秋榜

Redis数据倾斜与JD开源hotkey源码分析揭秘

京东科技开发者

数据库数据倾斜 key Redis 数据结构 redis\

区块链追溯：让冷链物流“热”起来！

区块链产业区块链企业号九月金秋榜冷链物流

2022年8月中国网约车领域月度观察

新书上市｜一位家长的忠告：长大后不成才的孩子，父母都忽视了这个点！

育儿教育脑科学基因

MobTech短信验证ApiCloud端SDK

MobTech袤博科技

API 短信验证

提高数据可视化效果的五个原则

博文视点Broadview

新书上市｜一位家长的忠告：长大后不成才的孩子，父母都忽视了这个点！

育儿教育脑科学基因