GAN训练技巧汇总
GAN自推出以来就以训练困难著称,因为它的训练过程并不是寻找损失函数的最小值,而是寻找生成器和判别器之间的纳什均衡。前者可以直接通过梯度下降来完成,而后者除此之外,还需要其它的训练技巧。
下面对历年关于GAN的论文提出的训练技巧进行总结,这里仅记录技巧,具体原理请直接看论文原文。
WGAN和WGAN-GP
WGAN论文将GAN原文用来度量两个分布之间差异的JS divergence改为了Wasserstein distance,从而有了拉近两个分布之间距离的“连续性”指标。经过转换后,对模型进行的修改如下:
1、判别器输出层去掉sigmoid,且损失函数不取对数log。也就是说原本的损失是先用sigmoid映射到$(0,1)$模拟概率值,然后再取对数映射到更大的区间以便计算。现在则是直接把这两步给取消了。实际上这两步就是多余的,因为不进行这两步的输出值就已经处于所需要的区间了。
2、将判别器参数的绝对值截断在常数C以内(不是特别大的数就行)。
3、不要用基于动量的优化算法,推荐RMSProp,SGD也行(这是论文实验得出的结论)。
WGAN-GP对WGAN做出了改进,且仅仅做出了一项改进:
1、将WGAN对判别器权重的裁剪约束,改为对判别器相对于输入的梯度的大小的约束。以正则项的形式直接加在目标函数中。改进目标函数如下:
$L = \mathop{\mathbb{E}}\limits_{\tilde{x}\sim \mathbb{P}_g} \left[D(\tilde{x})\right] - \mathop{\mathbb{E}}\limits_{x\sim \mathbb{P}_r} \left[D(x)\right] +\lambda \mathop{\mathbb{E}}\limits_{\hat{x}\sim \mathbb{P}_{\hat{x}}} \left[(||\nabla_{\hat{x}}D(\hat{x})||_2-1)^2\right] $
判别器参数$w$的更新就是求$L$对$w$的梯度,然后进行梯度下降。而因为有最后一个正则项,所以同样会把梯度限制在一定范围内。其中$\hat{x}$是$x$和$\tilde{x}$的随机加权和,至于为什么要用随机加权和而不是直接求$x$和$\tilde{x}$的梯度:关于WGAN-GP中的遗留问题? - 知乎
当然我们实践的时候,为了方便,可以直接使用$x$和$\tilde{x}$来对梯度的大小进行约束。也就是可以直接在keras中添加关于每个样本的正则化loss。
CGAN
相较于原始GAN,CGAN将图像的某些特征(比如手写数字对应的真实数字编码)加入生成器的输入进行训练。这样训练出来的生成器就能够以特征生成对应的图像,并且训练收敛的速度会更快一些,可能是因为输入增加了确定性。
InfoGAN
CGAN是添加与图像有关的特征到原本只有随机噪声的输入中增强训练,InfoGAN则是让生成器建立生成图像与输入生成器的随机噪声之间的映射关系,它大致看起来就像是自动编码器与GAN的结合。
InfoGAN除了定义生成器与判别器之外,还定义了一个与判别器共享大部分权重的“编码器”。相对于“编码器”,生成器就成了一个“解码器”。解码器将输入的噪声解码为图片,除了输入判别器外,还要将图片输入编码器。编码器则要尽量让自身的输出与解码器(生成器)输入的某一部分“噪声”相同,这一部分“噪声”是人为选择的隐变量,可以人为设置为离散或连续变量。这样一来,生成器不但要“照顾”判别器,生成尽量真实的图片,还要考虑让解码器能解码成功,生成与输入的噪声编码相关的图片。因此生成器的输入与其输出就会有一定的隐式联系。
DCGAN
对于深度卷积GAN,论文提出四个提高训练稳定性的方阵:
1、用步幅卷积层来代替所有的池化层。
2、在生成器和判别器中使用BN(Batch Normalization),但不要在生成器的输出与判别器的输入层使用。
3、对于层数较深的模型,隐层避免使用全连接层。
4、对于生成器,输出层激活函数使用Tanh,其它层激活函数都使用ReLu。生成器使用Tanh时,输出的图像颜色数值在$(-1,1)$内,因此训练集图像色值也要从$(0,1)$预处理到$(-1,1)$内。
5、对于判别器,所有层的激活函数都使用LeakyReLu。
NIPS 2016 Tutorial:GAN
生成器规模比判别器小更好。
最新文章
- Javascript中闭包问题(转载)
- JAVA应用程序占用CPU、内存过高分析过程
- python3 购物程序
- SqlServer性能优化 自定义动化性能收集(四)
- 【原】相煎何太急——input的blur事件与button的click事件
- RVM 实用指南
- IE已经被抛弃,但是不能遗忘
- 记录一个php强制下载文件函数
- Tried to obtain the web lock from a thread other than the main thread or the web thread. This may be
- springdata 多对多配置
- zabbix监控ssl证书到期时间
- VB批量替换文本字符
- Java学习笔记四:三目运算符与字符串连接符等
- 《Java语言实现快速幂取模》
- L2-007. 家庭房产(并查集)*
- 瞎搞poj1008
- Scala数据类型的继承结构
- 用strings命令查看kafka-log内容 过滤二进制编码
- Sql查询两个时间段有重叠的记录
- 阿里云专属推荐码nuyxa6
热门文章
- 阿里云体验实验室 教你《搭建Hadoop环境》
- C++ Templates (2.2 使用Stack类模板 Use of Class Template Stack )
- 数据结构与算法系列2 线性表 链表的分类+使用java实现链表+链表源码详解
- Labview学习之路(八)如何让控件显示在修饰符的前面
- 【HttpRunner v3.x】笔记 —— 开篇
- 最小生成树MST
- Zabbix 5.0 LTS版本的安装小结
- [oracle/sql]求员工表中每个部门里薪水最高的员工,那种sql最优?
- 20190916-01linux文件与目录结构 000 001
- MyBatis源码流程分析