【论文阅读37】Very Deep VAEs Generalize Autoregressive Models and Can Outperform Them on Images

阅读文献Very Deep VAEs Generalize Autoregressive Models and Can Outperform Them on Images

文献信息

标题Very Deep VAEs Generalize Autoregressive Models and Can Outperform Them on Images,发表于ICLR2021的spotlight

文献链接

文献总结

本文基于下列动机/idea:

  1. 自回归的归纳偏置不好,暴力找变量相关性;而VAE生成过程更明朗,二者关联性存在

  2. 由1,VAE可以弄成自回归模型,深度的可进一步完成其它生成模型

    这里面有个idea是自回归模型约等于分层VAE+强先验,由此VAE弄成自回归

  3. 背景是一系列生成模型,如自回归、VAE、可逆流,这些模型都很好

针对VAE、流模型相关的表示学习改进问题,通过设计深度VAE,调整其结构和优化技巧,成功把VAE拓展为有效的生成模型,效果绝佳

PS:这里自回归忘了是啥了,大概是生成过程的强先验,所以此拓展合

本文使用的深度VAE其实就是加深VAE,但是通过网络的设计和优化技巧使之能有效地加深

网络的设计大概就是使用top-down假设;只用高斯随机层、卷积层和非线性层;有不太明白为什么work的scaling和nearest-neighbor upsampling技巧。优化技巧就是解决VAE优化难的方式,本文用的是高梯度略掉(阈值),称为GRADIENT SKIPPING,但是我很好奇不管它越来越大咋办,估计本文的理论附录有什么证明吧

优缺点

本文的优点:

  1. 写作清晰,摘要一看就nb,性能优异吸引人,深度VAE干了什么也介绍了七七八八;后续模型来龙去脉也很清楚,层层推进
  2. 动机合理
  3. 后续对深度VAE有分析,对生成过程可视化
  4. 文章第6节末尾给了大量模型的对比
  5. 在CIFAR-10、ImageNe、FFHQ上实验的结果(对数似然、参数量、生成速度1000倍)优于PixelCNN
  6. 深度VAE可进一步完成其它生成模型
  7. 藉VAE可生成高分辨图像,原因应该是VAE有效的分层表示学习
  8. 文章第1节末尾前两个优点

缺点想不出来。。大概是top-down的结构有无操作空间?好像没有。。

实验

一些实验的细节显示

  • 总层数相同,深度增加时,参数量不变,泛化误差减小
  • 网络结构不变时,初始图像分辨率(大小)增加时,泛化误差减小
  • 实验过程中先生成全局特征,再学习局部特征,图像变为高分辨
  • 实验主要是验证生成过程的有效性,合理性,并且检验了哪些因素(如分辨率)对模型的影响

部分感悟

我参考的地方

  • 对大量模型的比较方式

  • 文章第2节开头对VAE的表述

  • 文章第2节先修知识表示,VAE相关方法本身效率相对有些问题,可能有两个原因:

    • 观测之间要相互独立✔
    • 不要完全分解分布,可以假定生成过程,本文用的是分层VAE,就是隐变量是top-down的模式,方式应该是使用随机层。这是合理的,有这样的明确意义,从底层特征过渡到高层特征,且隐变量的生成有随机性,带来自由性

参考文献

[1] Rewon Child. Very deep VAEs generalize autoregressive models and can outperform them on images. In International Conference on Learning Representations, 2021.