解决模式崩溃的两条思路：改进优化和网络架构_AI&大模型_小米粥

AICon 北京站 Keynote 亮点揭秘，想了解 Agent 智能体来就对了！了解详情 



 写点什么

今天讲述的内容主要是 GAN 中的模式崩溃问题，首先将说明模式崩溃问题的本质，并介绍两种解决模式崩溃问题的思路，然后将介绍一种简单而有效的解决方案 MAD-GAN，最后一部分将给出 MAD-GAN 的强化版本 MAD-GAN-Sim。

解决模式崩溃的两条路线

GAN 的模式崩溃问题，本质上还是 GAN 的训练优化问题，理论上说，如果 GAN 可以收敛到最优的纳什均衡点，那模式崩溃的问题便自然得到解决。举例如下图，红线代表生成数据的概率密度函数，而蓝线代表训练数据集的概率密度函数，本来红线只有一个模式，也就是生成器几乎只会产生一种样本，而在理论上的最优解中，红线与蓝线重合，这时候在生成器中采样自然能几乎得到三种样本，与训练集的数据表现为一致。

当然，实际中几乎不会达到全局最优解，我们看似收敛的 GAN 其实只是进入了一个局部最优解。故一般而言，我们有两条思路解决模式崩溃问题：

1.提升 GAN 的学习能力，进入更好的局部最优解，如下图所示，通过训练红线慢慢向蓝线的形状、大小靠拢，比较好的局部最优自然会有更多的模式，直觉上可以一定程度减轻模式崩溃的问题。

2.放弃寻找更优的解，只在 GAN 的基础上，显式地要求 GAN 捕捉更多的模式（如下图所示），虽然红线与蓝线的相似度并不高，但是“强制”增添了生成样本的多样性，而这类方法大都直接修改 GAN 的结构。

MAD-GAN

今天要介绍的 MAD-GAN 及其变体便是第二类方法的代表之一。

它的核心思想是这样的：即使单个生成器会产生模式崩溃的问题，但是如果同时构造多个生成器，且让每个生成器产生不同的模式，则这样的多生成器结合起来也可以保证产生的样本具有多样性，如下图的 3 个生成器：

需要说明一下，简单得添加几个彼此孤立的生成器并无太大意义，它们可能会归并成相同的状态，对增添多样性并无益处，例如下图的 3 个生成器：

理想的状态是：多个生成器彼此“联系”，不同的生成器尽量产生不相似的样本，而且都能欺骗判别器。

在 MAD（Multi-agent diverse）GAN 中，共包括 k 个初始值不同的生成器和 1 个判别器，与标准 GAN 的生成器一样，每个生成器的目的仍然是产生虚假样本试图欺骗判别器。对于判别器，它不仅需要分辨样本来自于训练数据集还是其中的某个生成器（这仍然与标准 GAN 的判别器一样），而且还需要驱使各个生成器尽量产生不相似的样本。

需要将判别器做一些修改：将判别器最后一层改为 k+1 维的 softmax 函数，对于任意输入样本 x，D(x)为 k+1 维向量，其中前 k 维依次表示样本 x 来自前 k 个生成器的概率，第 k+1 维表示样本 x 来自训练数据集的概率。同时，构造 k+1 维的 delta 函数作为标签，如果 x 来自第 i 个生成器，则 delta 函数的第 i 维为 1，其余为 0，若 x 来自训练数据集，则 delta 函数的第 k+1 维为 1，其余为 0。显然，D 的目标函数应为最小化 D(x)与 delta 函数的交叉熵：

直观上看，这样的损失函数会迫使每个 x 尽量只产生于其中的某一个生成器，而不从其他的生成器中产生，将其展开则为：

生成器目标函数为：

对于固定的生成器，最优判别器为：

![]

可以看出，其形式几乎同标准形式的 GAN 相同，只是不同生成器之间彼此“排斥”产生不同的样本。另外，可以证明当

达到最优解，再一次可以看出，MAD-GAN 中并不需要每个生成器的生成样本概率密度函数逼近训练集的概率密度函数，每个生成器都分别负责生成不同的样本，只须保证生成器的平均概率密度函数等于训练集的概率密度函数即可。

MAD-GAN-Sim

MAD-GAN-Sim 是一种“更强力”的版本，它不仅考虑了每个生成器都分别负责生成不同的样本，而且更细致地考虑了样本的相似性问题。其出发点在于：来自于不同模式的样本应该是看起来不同的，故不同的生成器应该生成看起来不相似的样本。

这一想法用数学符号描述即为：

其中φ (x)表示从生成样本的空间到特征空间的某种映射（我们可选择生成器的中间层，其思想类似于特征值匹配），Δ (x,y)表示相似度的度量，多选用余弦相似度函数，用于计算两个样本对应的特征的相似度。

对于给定的噪声输入 z，考虑第 i 个生成器与其他生成器的样本生成情况，若样本相似度比较大，则 D(G_i(z))相比较 D(G_j(z))应该大很多，由于 D(G_j(z))的值比较小，G_j(z)便会进行调整不再生成之前的那个相似的样本，转而去生成其他样本，利用这种“排斥”机制，我们就实现了让不同的生成器应该生成看起来不相似的样本。

将上述限制条件引入到生成器中，我们可以这样训练生成器，对于任意生成器 i，对于给定的 z，如果上面的条件满足，则像 MAD-GAN 一样正常计算，其梯度为：

如果条件不满足，将上述条件作为正则项添加到目标函数中，则其梯度为：

这样尽量使得判别器更新后，条件能够满足。MAD-GAN-Sim 的思路非常直接清晰，不过代价就是增加非常多的计算量。

原文链接：

https://mp.weixin.qq.com/s/QFCJ7BxNvfj2L9Wlr6aq9A

作者介绍

小米粥，公众号“有三 AI”作者。该公号聚焦于让大家能够系统性地完成 AI 各个领域所需的专业知识的学习。

发布

暂无评论

创作场景

解决模式崩溃的两条思路：改进优化和网络架构

解决模式崩溃的两条路线

MAD-GAN

MAD-GAN-Sim

评论

科兴未来｜2023年扬中高层次人才创新创业大赛

科兴未来｜2023”福地句才”海外人才创业大赛

深度学习应用篇-自然语言处理[10]：N-Gram、SimCSE介绍，更多技术：数据增强、智能标注、多分类算法、文本信息抽取、多模态信息抽取、模型压缩算法等

赋能矿山 | KaiwuDB 智慧矿山解决方案

精耕丝路，智胜全球 | 新华三助力中企跑好“出海”赛道

浪潮 KaiwuDB x 大数据中心 | 数据驱动政府治理能力快速提升

直播回顾 | 一体化智能可观测平台如何保障电商节大促

平台即产品：数字化转型的全新驱动力

数据分析：电子商务需要关注的重要指标有哪些？

DevEco创建项目时的错误解决

HummerRisk获中国开源创新大赛优秀奖

相约未名湖畔，百度商业AI技术创新大赛携手北大学子共探AI发展

分享几款 Mac 上非常好用的的免费软件

智慧生活垃圾焚烧发电厂Web3D可视化平台

3 个技巧，让你像技术专家一样解决编码问题

“数字创新产品课程”7月29-30日 · CSPO认证周末班【提前报名特惠】CST导师亲授

Win服务器图床配置

NFTScan | 06.05~06.11 NFT 市场热点汇总

Java线程池三、调优和性能优化

千万级数据的可视化交互展示：Vue.js 技术解析

深度学习应用篇-自然语言处理-命名实体识别[9]：BiLSTM+CRF实现命名实体识别、实体、关系、属性抽取实战项目合集（含智能标注）

喜讯 | 华秋电子荣获证券时报年度高成长企业

Java代码性能测试实战之ContiPerf

构建系列之新一代利器Esbuild(上)

【Netty】「萌新入门」（一）Hello, World!

数据可视化设计四大原则透析

“敏捷教练进阶课程”7月22-23日 ·A-CSM认证在线周末班【提前报名特惠】CST导师亲授

通过技术变革，推动全面预算管理前行

【零售电商系列】走进亚马逊之自建仓储&物流

教培行业的“智能GPT私教”？WorkPlusAI助理帮助教培机构实现十倍人效！

Web网页端IM产品RainbowChat-Web的v5.0版已发布

创作场景

解决模式崩溃的两条思路：改进优化和网络架构

解决模式崩溃的两条路线

MAD-GAN

MAD-GAN-Sim

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载