
斯坦福大学研究人员 Mason Kamb 与 Surya Ganguli 在最新论文中提出了一种可能解释扩散模型创造力的机制。他们建立的数学模型表明,这种创造力是此类模型利用去噪过程生成图像时必然产生的确定性结果。
简而言之,扩散模型的训练本质是从各向同性高斯噪声分布中挖掘图像,该噪声分布源自有限训练图像集的处理结果。这一过程通过逐步去除高斯噪声实现,具体方式是学习一个指向概率递增梯度方向的评分函数。
若神经网络能精确掌握这个理想评分函数,就能完美逆转前向的过程。但这样一来,也只能是将高斯噪声转化为记忆中的训练样本图像。
这意味着,要生成超出训练集分布范围的新图像,模型必须无法完全掌握理想评分函数。对此的一种解释是:归纳偏置的存在可能更准确地描述了扩散模型在创造性生成新样本时的实际运作方式。
通过分析扩散模型是如何利用卷积神经网络(CNN)估算评分函数,研究者识别出两种关键偏置:平移等变性与局部性。平移等变性是指模型会反映输入图像的位移变化(输入图像平移几个像素,生成图像也会对应平移);局部性则源于学习评分函数时使用的 CNN 结构只考虑输入像素的局部邻域,而非全局信息。
基于这些发现,研究者搭建了一个为优化等变性与局部性评分函数的数学模型,并将其称作是等变局部评分机(ELS)。
ELS 机是一组能计算去噪图像组合的方程式,研究者将其输出与在简化模型上训练的 ResNet、UNet 等扩散模型进行对比,发现“CNN 输出与 ELS 机输出呈现出显著且一致的量化吻合”,准确率约 90%以上(具体数值因模型和数据集而异)。
据我们所知,这是首个能以如此精度解析基于深度神经网络的生成模型创造行为的理论。重要的是,(E)LS 机对所有训练输出的解释力都远超 IS 机。
Ganguli 指出,他们的研究揭示了扩散模型如何“通过在新图像不同位置混合匹配训练集的局部图像块,形成一种局部拼贴式的创造力模型”。该理论还能解释扩散模型的典型错误(如生成多余手指或肢体),这些都是过度局部化导致的后果。
尽管结论颇具说服力,但初始研究排除了包含高度非局部自注意力层(SA)的扩散模型(因其违背了研究者的局部性假设)。针对这点,论文作者使用 ELS 机预测了基于 CIFAR-10 预训练的公开 UNet+SA 模型输出,发现其准确率仍显著高于基线 IS 机。
研究者表示,他们的成果证明局部性与等变性足以解释纯卷积扩散模型的创造力,并可为研究更复杂扩散模型奠定基础。研究团队还开源了实验中使用的扩散模型训练代码。
原文链接:
https://www.infoq.com/news/2025/07/diffusion-model-creativity/
评论