写点什么

研究者尝试揭示扩散模型创造力的起源

  • 2025-07-08
    北京
  • 本文字数:1025 字

    阅读完需:约 3 分钟

大小:506.40K时长:02:52
研究者尝试揭示扩散模型创造力的起源

斯坦福大学研究人员 Mason Kamb 与 Surya Ganguli 在最新论文中提出了一种可能解释扩散模型创造力的机制。他们建立的数学模型表明,这种创造力是此类模型利用去噪过程生成图像时必然产生的确定性结果。

 

简而言之,扩散模型的训练本质是从各向同性高斯噪声分布中挖掘图像,该噪声分布源自有限训练图像集的处理结果。这一过程通过逐步去除高斯噪声实现,具体方式是学习一个指向概率递增梯度方向的评分函数。

 

若神经网络能精确掌握这个理想评分函数,就能完美逆转前向的过程。但这样一来,也只能是将高斯噪声转化为记忆中的训练样本图像。

 

这意味着,要生成超出训练集分布范围的新图像,模型必须无法完全掌握理想评分函数。对此的一种解释是:归纳偏置的存在可能更准确地描述了扩散模型在创造性生成新样本时的实际运作方式。

 

通过分析扩散模型是如何利用卷积神经网络(CNN)估算评分函数,研究者识别出两种关键偏置:平移等变性局部性。平移等变性是指模型会反映输入图像的位移变化(输入图像平移几个像素,生成图像也会对应平移);局部性则源于学习评分函数时使用的 CNN 结构只考虑输入像素的局部邻域,而非全局信息。

 

基于这些发现,研究者搭建了一个为优化等变性与局部性评分函数的数学模型,并将其称作是等变局部评分机(ELS)。

 

ELS 机是一组能计算去噪图像组合的方程式,研究者将其输出与在简化模型上训练的 ResNet、UNet 等扩散模型进行对比,发现“CNN 输出与 ELS 机输出呈现出显著且一致的量化吻合”,准确率约 90%以上(具体数值因模型和数据集而异)。

 

据我们所知,这是首个能以如此精度解析基于深度神经网络的生成模型创造行为的理论。重要的是,(E)LS 机对所有训练输出的解释力都远超 IS 机。

 

Ganguli 指出,他们的研究揭示了扩散模型如何“通过在新图像不同位置混合匹配训练集的局部图像块,形成一种局部拼贴式的创造力模型”。该理论还能解释扩散模型的典型错误(如生成多余手指或肢体),这些都是过度局部化导致的后果。

 

尽管结论颇具说服力,但初始研究排除了包含高度非局部自注意力层(SA)的扩散模型(因其违背了研究者的局部性假设)。针对这点,论文作者使用 ELS 机预测了基于 CIFAR-10 预训练的公开 UNet+SA 模型输出,发现其准确率仍显著高于基线 IS 机。

 

研究者表示,他们的成果证明局部性与等变性足以解释纯卷积扩散模型的创造力,并可为研究更复杂扩散模型奠定基础。研究团队还开源了实验中使用的扩散模型训练代码


原文链接:

https://www.infoq.com/news/2025/07/diffusion-model-creativity/

2025-07-08 16:009513

评论

发布
暂无评论

Wall-Clock 与 CPU-Cycles 采样的区别

mazhen

Linux Performance perf kernel

FastRawViewer for Mac|RAW 文件秒开神器,摄影师必备!

柠檬与橘子

大数据-15-Hive 元数据管理与存储 Metastore Metadata 内嵌模式 本地模式 远程模式

武子康

大数据 hadoop mapreduce hive

MountMate for Mac|外接硬盘管家,一键搞定挂载/卸载!

柠檬与橘子

行业专家齐聚 | 共探跨端动态化新态势

京东零售技术

GreatSQL从库报错13146:字符集不一致问题处理

GreatSQL

618焕新攻略:华为用户专属全场景智能体验,省钱省心一步到位

最新动态

PDF阅读器管理您的PDF文件PDF Reader Pro for mac

晨光熹微

DataBuff 多模态AI在可观测平台上的应用实践(龙蜥系统运维联盟Meetup分享)

乘云数字DataBuff

大模型 多模态模型

微擎生态驱动的全场景社交商业赋能

微擎应用市场

微擎生态驱动的全场景会议数字化管理

微擎应用市场

100%加密计算+端云延迟无感:火山引擎如何实现AI安全与性能兼得?

新消费日报

Mac文件提取工具File Juicer

晨光熹微

B2B企业如何快速实现SCRM搭建?Custouch市场易来助力!

极客天地

5G-A与AI共舞,广东移动烹出高铁网络加速包

脑极体

AI

高级文件搜索应用工具ProFind for Mac

晨光熹微

火山引擎携手厂商共同推动手机 AI 应用迈向智能化、全能化新高度

新消费日报

Raw查看器FastRawViewer for mac

晨光熹微

强大的3D造型软件犀牛 Rhinoceros 8 for Mac

晨光熹微

医科+AI人才培养系列第二场 | 南医大副教授沈思鹏生物统计学课程演示

ModelWhale

南方医科大学 生物统计学

微擎生态驱动的本地化服务智能调度

微擎应用市场

火山引擎边缘计算节点也支持 MCP 了!快来 get 这份使用教程

火山引擎边缘云

边缘计算 MCP MCP Server

微擎生态赋能的智能化租赁管理

微擎应用市场

SSH终端应用Prompt 3 for mac

晨光熹微

微擎生态驱动的门店数字化增长

微擎应用市场

YashanDB数据库在企业数据治理中的角色与意义

数据库砖家

YashanDB数据库在社交媒体平台中的数据管理实践

数据库砖家

中高考季,盘点AI文档工具有哪些实用的创新?

合合技术团队

人工智能 大数据 算法

CST热仿真CHT求解器--水冷

思茂信息

仿真 cht CST Studio Suite 散热

Auto Mouse Click for Mac|解放双手!鼠标连点/挂机一键搞定

柠檬与橘子

YashanDB数据库在能源管理中的应用探索

数据库砖家

研究者尝试揭示扩散模型创造力的起源_AI&大模型_Sergio De Simone_InfoQ精选文章