写点什么

研究者尝试揭示扩散模型创造力的起源

  • 2025-07-08
    北京
  • 本文字数:1025 字

    阅读完需:约 3 分钟

大小:506.40K时长:02:52
研究者尝试揭示扩散模型创造力的起源

斯坦福大学研究人员 Mason Kamb 与 Surya Ganguli 在最新论文中提出了一种可能解释扩散模型创造力的机制。他们建立的数学模型表明,这种创造力是此类模型利用去噪过程生成图像时必然产生的确定性结果。

 

简而言之,扩散模型的训练本质是从各向同性高斯噪声分布中挖掘图像,该噪声分布源自有限训练图像集的处理结果。这一过程通过逐步去除高斯噪声实现,具体方式是学习一个指向概率递增梯度方向的评分函数。

 

若神经网络能精确掌握这个理想评分函数,就能完美逆转前向的过程。但这样一来,也只能是将高斯噪声转化为记忆中的训练样本图像。

 

这意味着,要生成超出训练集分布范围的新图像,模型必须无法完全掌握理想评分函数。对此的一种解释是:归纳偏置的存在可能更准确地描述了扩散模型在创造性生成新样本时的实际运作方式。

 

通过分析扩散模型是如何利用卷积神经网络(CNN)估算评分函数,研究者识别出两种关键偏置:平移等变性局部性。平移等变性是指模型会反映输入图像的位移变化(输入图像平移几个像素,生成图像也会对应平移);局部性则源于学习评分函数时使用的 CNN 结构只考虑输入像素的局部邻域,而非全局信息。

 

基于这些发现,研究者搭建了一个为优化等变性与局部性评分函数的数学模型,并将其称作是等变局部评分机(ELS)。

 

ELS 机是一组能计算去噪图像组合的方程式,研究者将其输出与在简化模型上训练的 ResNet、UNet 等扩散模型进行对比,发现“CNN 输出与 ELS 机输出呈现出显著且一致的量化吻合”,准确率约 90%以上(具体数值因模型和数据集而异)。

 

据我们所知,这是首个能以如此精度解析基于深度神经网络的生成模型创造行为的理论。重要的是,(E)LS 机对所有训练输出的解释力都远超 IS 机。

 

Ganguli 指出,他们的研究揭示了扩散模型如何“通过在新图像不同位置混合匹配训练集的局部图像块,形成一种局部拼贴式的创造力模型”。该理论还能解释扩散模型的典型错误(如生成多余手指或肢体),这些都是过度局部化导致的后果。

 

尽管结论颇具说服力,但初始研究排除了包含高度非局部自注意力层(SA)的扩散模型(因其违背了研究者的局部性假设)。针对这点,论文作者使用 ELS 机预测了基于 CIFAR-10 预训练的公开 UNet+SA 模型输出,发现其准确率仍显著高于基线 IS 机。

 

研究者表示,他们的成果证明局部性与等变性足以解释纯卷积扩散模型的创造力,并可为研究更复杂扩散模型奠定基础。研究团队还开源了实验中使用的扩散模型训练代码


原文链接:

https://www.infoq.com/news/2025/07/diffusion-model-creativity/

2025-07-08 16:009261

评论

发布
暂无评论

守护更多女性健康,华为云GeminiDB助力美柚完成数据库高效稳定迁移

YG科技

GaussDB(for Redis)助力金智教育业务数字化,增效降本双赢

YG科技

电源噪声的起因及危害

芯动大师

噪声 电源

Hazel for Mac自动化清理 含Hazel许可证

Rose

Hazel for Mac Hazel许可证 Hazel for Mac破解版 自动化文件整理

Elmedia Video Player Pro 支持AirPlay的苹果mac视频播放器

Rose

媒体播放器 Mac软件 视频播放器 Elmedia Video Player Pro

topaz gigapixel ai怎么安装?Topaz Gigapixel AI激活安装详细教程

Rose

topaz gigapixel ai破解版 无损放大图像 Topaz Gigapixel AI 安装

8款AI视频生成产品实测,谁将成为中国Sora?

自象限

选择KV数据库最重要的是什么?

YG科技

2024多云管理平台CMP排名看这里!

行云管家

云计算 云服务 多云管理 云管

新体验、高效能,星河零代码产线加速带动产业新质生产力

飞桨PaddlePaddle

百度 BAIDU 百度飞桨 产品更新 PaddleX

Windows自定义后台进程并设置为开机启动

GousterCloud

windows 自定义 后台进程 开机启动

【论文速读】| 通过间接提示注入危害现实世界中的LLM集成应用

云起无垠

人工智能降噪:topaz photo ai 操作系统 topaz photo ai中文破解安装包

Rose

智能降噪 Topaz Photo AI系统要求 Topaz Photo AI破解版

实现以图搜货功能,淘宝API开发实战分享

tbapi

图片搜索接口 以图搜货接口 拍立淘接口

cad设计绘图Autodesk AutoCAD 2025完整版中文破解工具

Rose

AutoCAD 2025 CAD2025

解析 WebSocket 与 HTTP 协议的关键区别

Apifox

编程 程序员 网络协议 HTTP websocket

水杉3D建模工具:Metasequoia破解版 含永久注册码

Rose

水杉3D建模 Metasequoia 4 破解版 Metasequoia 4注册码

Maya 2025下载 玛雅maya2025新功能介绍

Rose

Maya 2025中文版 Maya 2025下载 三维动画软件 玛雅2025新功能 玛雅2025破解

AutoCAD LT 2025介绍(精简版cad2025)及中文版安装教程

Rose

Autodesk AutoCAD LT 2025 cad2025破解版 AutoCAD LT 2025介绍

就业寒冬,我是如何拿到5个offer的(附面试题)

霍格沃兹测试开发学社

GaussDB(for Redis)特性揭秘:多租户管理

YG科技

Disk Drill for mac专业直装版 苹果电脑数据恢复工具下载

Rose

Disk Drill下载 Disk Drill mac 数据恢复mac版

标准库unsafe:带你突破golang中的类型限制

华为云开发者联盟

Go golang 开发 华为云 华为云开发者联盟

招聘严峻期我最终拿到5个Offer的一些经验分享(附面试题)

测试人

面试 软件测试

3D数字绘画和雕刻软件:Mudbox 2025 新功能介绍及安装教程

Rose

Mudbox 2025下载 Mudbox 2025新功能 Mudbox 2025安装教程 3D数字雕刻

探秘Kubernetes:在本地环境中玩转容器技术

SEAL安全

Kubernetes 容器 云原生 本地环境

研究者尝试揭示扩散模型创造力的起源_AI&大模型_Sergio De Simone_InfoQ精选文章