文献阅读记录,这篇稍微读全一点
文献简介
- 无附录文献地址:http://proceedings.mlr.press/v84/futami18a/futami18a.pdf
- 有附录文献地址:https://arxiv.org/abs/1710.06595
- 文献发布于2017年
摘要+Intro+结论
本文研究过程:
- 背景:稳健性在机器学习中十分重要
- 传统标准方法0:基于模型,使用重尾分布,缺点是只能用于少数简单模型
- 新方法1:Zellner的贝叶斯变分推断,用KL散度,是我熟知的那个
- 新方法2:基于方法1,使用$\beta$散度,导出伪贝叶斯变分推断,更稳健,但只针对了简单高斯分布做数学证明
- 本文方法3:基于方法1,使用稳健的$\beta$或者$\gamma$散度,导出伪贝叶斯变分推断。优点如下:
- 针对了更复杂的模型,证明了对ReLu激活的DNN的稳健性。对比了只做简单模型验证的新方法2
- 完成IF分析,在ReLu激活的DNN上对比了方法1的无界IF,因此对特征和标签扰动都是稳健的;第二个对比是我毕设主文献,其IF分析是渐进有界的,此方法则有限样本必有界
- 未来工作:拓展到更多复杂模型、与其它推断估计方法结合
预备知识
MLE与其稳健变式:
- 原始MLE很简单,(2)可以用狄拉克函数推导出来
- 稳健变式即散度的变化,$\beta$和$\gamma$散度都可以退化到KL散度,(8)式有点恶心,但是自己带入就推出来了(已推)
贝叶斯变分推断:
Emmm,真的就是介绍下变分推断…其中(12)式没看明白,应该问题不大…
本文方法——基于稳健散度的稳健推断
总的方法就是在正常变分推断的基础上,把式(14)中的第一项期望中的KL散度项替换为稳健散度。
以$\beta$散度为例,举了例子,近似的参数后验分布有(18)式给出,具体怎么算的话…积分鬼才,本文表示用好用的分布族+重参数化采样近似去计算。
注:其中有个不对劲的地方,$\beta$交叉熵,我查阅了原始论文Robust and efficient estimation by minimising a density power divergence中的(4.1)式,本文好像少了一个常数项,虽然求导不影响啦~
IF分析
本文的IF定义介绍我不是太明白,但是意思我懂了,即数据偏差导致的变化。接下来的定理我也不懂,反正都是给好的结果。接下来的分析我基本上都明白了,结果也看懂了,即IF分析表明稳健散度在DNN(包括分类回归)上对特征和标签扰动导致的IF都是有界的即稳健起来了。除了(26)式又不懂了,
实验
实验很正常,数据特征和标签的两种打乱方式,按照所提稳健散度引出的稳健VI,分别在人造数据和真实数据上进行了实验。
人造数据简单验证了稳健性
用UCI数据打乱的程度与测试对数似然的关系验证了稳健性
- 用交叉验证的方法获取较优的稳健散度的参数,并以优异结果验证了稳健性