阅读文献Very Deep VAEs Generalize Autoregressive Models and Can Outperform Them on Images
文献信息
标题Very Deep VAEs Generalize Autoregressive Models and Can Outperform Them on Images,发表于ICLR2021的spotlight
文献链接
- https://openreview.net/forum?id=RLRXCV6DbEJ (审稿意见先不看了)
- https://arxiv.org/abs/2011.10650
- https://github.com/yaminibansal/vdvae
- https://github.com/openai/vdvae
文献总结
本文基于下列动机/idea:
自回归的归纳偏置不好,暴力找变量相关性;而VAE生成过程更明朗,二者关联性存在
由1,VAE可以弄成自回归模型,深度的可进一步完成其它生成模型
这里面有个idea是自回归模型约等于分层VAE+强先验,由此VAE弄成自回归
背景是一系列生成模型,如自回归、VAE、可逆流,这些模型都很好
针对VAE、流模型相关的表示学习改进问题,通过设计深度VAE,调整其结构和优化技巧,成功把VAE拓展为有效的生成模型,效果绝佳
PS:这里自回归忘了是啥了,大概是生成过程的强先验,所以此拓展合
本文使用的深度VAE其实就是加深VAE,但是通过网络的设计和优化技巧使之能有效地加深
网络的设计大概就是使用top-down假设;只用高斯随机层、卷积层和非线性层;有不太明白为什么work的scaling和nearest-neighbor upsampling技巧。优化技巧就是解决VAE优化难的方式,本文用的是高梯度略掉(阈值),称为GRADIENT SKIPPING,但是我很好奇不管它越来越大咋办,估计本文的理论附录有什么证明吧
优缺点
本文的优点:
- 写作清晰,摘要一看就nb,性能优异吸引人,深度VAE干了什么也介绍了七七八八;后续模型来龙去脉也很清楚,层层推进
- 动机合理
- 后续对深度VAE有分析,对生成过程可视化
- 文章第6节末尾给了大量模型的对比
- 在CIFAR-10、ImageNe、FFHQ上实验的结果(对数似然、参数量、生成速度1000倍)优于PixelCNN
- 深度VAE可进一步完成其它生成模型
- 藉VAE可生成高分辨图像,原因应该是VAE有效的分层表示学习
- 文章第1节末尾前两个优点
缺点想不出来。。大概是top-down的结构有无操作空间?好像没有。。
实验
一些实验的细节显示
- 总层数相同,深度增加时,参数量不变,泛化误差减小
- 网络结构不变时,初始图像分辨率(大小)增加时,泛化误差减小
- 实验过程中先生成全局特征,再学习局部特征,图像变为高分辨
- 实验主要是验证生成过程的有效性,合理性,并且检验了哪些因素(如分辨率)对模型的影响
部分感悟
我参考的地方
对大量模型的比较方式
文章第2节开头对VAE的表述
文章第2节先修知识表示,VAE相关方法本身效率相对有些问题,可能有两个原因:
- 观测之间要相互独立✔
- 不要完全分解分布,可以假定生成过程,本文用的是分层VAE,就是隐变量是top-down的模式,方式应该是使用随机层。这是合理的,有这样的明确意义,从底层特征过渡到高层特征,且隐变量的生成有随机性,带来自由性
参考文献
[1] Rewon Child. Very deep VAEs generalize autoregressive models and can outperform them on images. In International Conference on Learning Representations, 2021.