A CVPR 2017 paper

Updated on Dec, 06

Making Deep Networks Robust to Label Noise: a Loss Correction Approach

摘要部分

问题的背景是数据中的label含有noise，且是与类别独立相关的。大前提是已知每一类的label被弄错成另一种类别的概率，相当于有一个概率转移矩阵。因此label的操作可能会有矩阵求逆，矩阵相乘的操作。

提出一种基于理论的方法来训练神经网络，包括递归网络。想法应该是想办法修正loss，试图估计一下label的概率转移情况。通过这种方法减小noise label的影响，做到稳健性。

另一个结论是，如果只有ReLU作为非线性单元，则loss曲线的情况与noise label的情况无关！这个似乎有点恐怖？！

模型setup

基本记号：

c是正整数，定义$[c] = \{1, \cdots, c\}$
粗体表示列向量或者矩阵
c维的单纯形$\Delta^{c-1}\subset [0, 1]^c$

数据生成模型setup，c类监督学习，

特征空间$\mathcal{X}\subseteq \mathbb{R}^d$，d维数据
label空间$\mathcal{Y} = \{e^i:i\in [c]\}$，$e^i$是c维向量，元素值为0或1，只有第i维是1，其它都是0，这个维度就对应了label值

一个数据$(\boldsymbol{x}, \boldsymbol{y})$生成的方式是未知的分布$p(\boldsymbol{x},\boldsymbol{y}) = p(\boldsymbol{y}|\boldsymbol{x})p(\boldsymbol{x})$。

神经网络模型，n层layers，其实就是一模一样的全连接网络做分类，只是这里它说的数学很详细，可以作为不错的介绍材料。（下面可看可不看）

整个网络$\boldsymbol{h}:\mathcal{X}\rightarrow \mathbb{R}^c$，$\boldsymbol{h} = (\boldsymbol{h}^{(n)} \circ \boldsymbol{h}^{(n-1)} \cdots \boldsymbol{h}^{(1)})$，就是网络是n层的。其中前n-1层网络都是正常的全连接及激活（激活只要求保持一致不变就好），最后一层由于分类的需要就不激活了。其中未知的参数包括每一层的权重矩阵和bias向量。后面不写了，实际上是完全能懂的。最后用的softmax去近似分类条件概率$p(\boldsymbol{y}|\boldsymbol{x})$，并且用交叉熵作为损失函数。如果概率p加了尖上标，表示预测的结果；弯上标表示转移后的观测标签。其交叉熵损失是这样定义的

$l(\boldsymbol{e}^i, \hat{p}(\boldsymbol{y}|\boldsymbol{x})) = - (\boldsymbol{e}^i)^Tlog\ \hat{p}(\boldsymbol{y}|\boldsymbol{x}) = - log\ \hat{p}(\boldsymbol{y} = \boldsymbol{e}^i|\boldsymbol{x})$

把每个label对应的结果组合起来成为loss向量$\boldsymbol{l} \in \mathbb{R}^c$

后面将证明一些温和条件下loss的结论$\sim$

带噪标签和loss的稳健性

标签的噪声是不对称或者是不均匀asymmetric的，概率转移是指每个标签$\boldsymbol{y}$都可能以一定概率$p(\tilde{\boldsymbol{y}}|\boldsymbol{y})$变成一个别的标签$\tilde{\boldsymbol{y}}$。

注意这里真实标签是$\boldsymbol{y}$但是观测到的样本标签是$\tilde{\boldsymbol{y}}$。所以我们在拟合的其实是分布$p(\boldsymbol{x}, \tilde{\boldsymbol{y}}) = \sum_{\boldsymbol{y}}p(\tilde{\boldsymbol{y}}|\boldsymbol{y})p(\boldsymbol{y}|\boldsymbol{x})p(\boldsymbol{x})$。其中标签转移的概率表示为noise转移矩阵$T\in [0, 1]^{c\times c}$的元素$T_{ij} = p(\tilde{\boldsymbol{y}} = e^j|\boldsymbol{y} = e^i)$。T只需要满足行和为1。

一般来说实际数据中可能有些类别本身很接近，人也不太能精确识别，因此容易出现标签出错的情况。

我们通过两种修正loss函数的方法达到loss稳健性。

修正1：向后修正

向后修正loss仍然是原loss的无偏估计，即

定理1 标签转移矩阵T非奇异，已知原loss函数l，定义向后修正的loss为

$\boldsymbol{\ell}^{\leftarrow}(\hat{p}(\boldsymbol{y}|\boldsymbol{x})) = T^{-1}\boldsymbol{\ell}(\hat{p}(\boldsymbol{y}|\boldsymbol{x}))$

向后loss是对带噪数据预测的loss，原loss是指干净数据上的loss。称之为向后是指本来干净标签y经T变换成为带噪标签，现在loss上给了个T逆，是一步step back。

它的无偏性是指

$\forall \boldsymbol{x},\ \mathbb{E}_{\tilde{\boldsymbol{y}}|\boldsymbol{x}}\boldsymbol{\ell}^{\leftarrow}(\hat{p}(\boldsymbol{y}|\boldsymbol{x})) = \mathbb{E}_{\boldsymbol{y}|\boldsymbol{x}}\boldsymbol{\ell}(\hat{p}(\boldsymbol{y}|\boldsymbol{x}))$

因此其极小，即神经网络期望的优化结果minimizer相等：

$\mathop{\arg\min}\limits_{\hat{p}(\boldsymbol{y}|\boldsymbol{x})} \mathbb{E}_{\tilde{\boldsymbol{y}}|\boldsymbol{x}}\boldsymbol{\ell}^{\leftarrow}(\hat{p}(\boldsymbol{y}|\boldsymbol{x})) = \mathop{\arg\min}\limits_{\hat{p}(\boldsymbol{y}|\boldsymbol{x})} \mathbb{E}_{\boldsymbol{y}|\boldsymbol{x}}\boldsymbol{\ell}(\hat{p}(\boldsymbol{y}|\boldsymbol{x}))$

证明只需证明无偏性

$\begin{align} \mathbb{E}_{\tilde{\boldsymbol{y}}|\boldsymbol{x}}\boldsymbol{\ell}^{\leftarrow}(\hat{p}(\boldsymbol{y}|\boldsymbol{x})) &= \mathbb{E}_{\boldsymbol{y}|\boldsymbol{x}} T\boldsymbol{\ell}^{\leftarrow}(\hat{p}(\boldsymbol{y}|\boldsymbol{x}))\\ &= \mathbb{E}_{\boldsymbol{y}|\boldsymbol{x}} T T^{-1}\boldsymbol{\ell}(\hat{p}(\boldsymbol{y}|\boldsymbol{x}))\\ &= \mathbb{E}_{\boldsymbol{y}|\boldsymbol{x}}\boldsymbol{\ell}(\hat{p}(\boldsymbol{y}|\boldsymbol{x}))\end{align}$

式子中第一步是换元，T是两个元之间的转化关系；

第二步是loss的def。$\blacksquare$

注意T逆一般可以算，但是可能条件数很大，比较难算。所以修改一下T，让他好算点比较舒服。

修正2：向前修正

定理2 标签转移矩阵T非奇异，已知原loss函数$\boldsymbol{\ell}_{\boldsymbol{\psi}}$且是proper composite的。定义向前修正的loss为

$\boldsymbol{\ell}^{\rightarrow}_{\boldsymbol{\psi}}(\boldsymbol{h}(\boldsymbol{x})) = \boldsymbol{\ell}(T^{T}\psi^{-1}(\boldsymbol{h}(\boldsymbol{x})))$

向前loss

这里没有了无偏性，但是期望的minimizer仍然相等（一眼看不出来的）

$\mathop{\arg\min}\limits_{\boldsymbol{h}} \mathbb{E}_{\boldsymbol{x}, \tilde{\boldsymbol{y}}}\boldsymbol{\ell}^{\rightarrow}_{\boldsymbol{\psi}}(\boldsymbol{y}, \boldsymbol{h}(\boldsymbol{x})) = \mathop{\arg\min}\limits_{\boldsymbol{h}} \mathbb{E}_{\boldsymbol{x}, \boldsymbol{y}}\boldsymbol{\ell}_{\boldsymbol{\psi}}(\boldsymbol{y}, \boldsymbol{h}(\boldsymbol{x}))$

证明向前loss利用了交叉熵的一个性质

预测标签$\hat{p}(\boldsymbol{y}|\boldsymbol{x})$和任一标签$e^i$之间的交叉熵，真实标签$e^j$，但是观测标签$\tilde{\boldsymbol{y}}$却在干扰

$\begin{align} \boldsymbol{\ell}(e^i, \hat{p}(\boldsymbol{\tilde{y}}|\boldsymbol{x})) &= - (\boldsymbol{e}^i)^Tlog\ \hat{p}(\boldsymbol{\tilde{y}}|\boldsymbol{x})\\ &= - log\ \hat{p}(\boldsymbol{\tilde{y}} = \boldsymbol{e}^i|\boldsymbol{x})\\ &= -\log \sum_{j=1}^{c} p\left(\tilde{\boldsymbol{y}}=e^{i} | \boldsymbol{y}=e^{j}\right) \hat{p}\left(\boldsymbol{y}=e^{j} | \boldsymbol{x}\right)\\ &= -\log \sum_{j=1}^{c} T_{j i} \hat{p}\left(\boldsymbol{y}=e^{j} | \boldsymbol{x}\right)\end{align}$

用矩阵的形式就是

$\ell(\hat{p}(\boldsymbol{y} | \boldsymbol{x}))=-\log T^{\top} \hat{p}(\boldsymbol{y} | \boldsymbol{x})$

这样的话，loss被T处理了，就叫做向前

在定理中，loss是proper composite，带来一个性质：

给定可逆的link函数$\psi: \Delta^{c-1} \rightarrow \mathbb{R}^{c}$，则复合loss定义为$\ell_{\psi}$，$\ell_{\boldsymbol{\psi}}(\boldsymbol{y}, \boldsymbol{h}(\boldsymbol{x}))=\ell\left(\boldsymbol{y}, \boldsymbol{\psi}^{-1}(\boldsymbol{h}(\boldsymbol{x}))\right)$，这里softmax就是$\boldsymbol{\psi}^{-1}$。它对应minimizer的性质$\underset{h}{\operatorname{argmin}} \mathbb{E}_{\boldsymbol{x}, \boldsymbol{y}} \ell_{\boldsymbol{\psi}}(\boldsymbol{y}, \boldsymbol{h}(\boldsymbol{x}))=\psi(p(\boldsymbol{y} | \boldsymbol{x}))$。

$\therefore$由link函数的定义，向前loss表示为

$\ell \vec{\psi}(\boldsymbol{y}, \boldsymbol{h}(\boldsymbol{x}))=\ell\left(\boldsymbol{y}, T^{\top} \boldsymbol{\psi}^{-1}(\boldsymbol{h}(\boldsymbol{x}))\right)=\ell_{\boldsymbol{\phi}}(\boldsymbol{y}, \boldsymbol{h}(\boldsymbol{x}))$

新的符号$\phi^{-1}=\psi^{-1} \circ T^{\top}$，$\therefore \mathbb{E}_{\boldsymbol{x}, \tilde{\boldsymbol{y}}} \boldsymbol{\ell}^{\rightarrow}_{\boldsymbol{\psi}}(\boldsymbol{y}, \boldsymbol{h}(\boldsymbol{x})) = \mathbb{E}_{\boldsymbol{x}, \tilde{\boldsymbol{y}}} \ell_{\boldsymbol{\phi}}(\boldsymbol{y}, \boldsymbol{h}(\boldsymbol{x})) $

得到$\underset{\boldsymbol{h}}{\operatorname{argmin}} \mathbb{E}_{\boldsymbol{x}, \tilde{\boldsymbol{y}}} \ell_{\boldsymbol{\phi}}(\boldsymbol{y}, \boldsymbol{h}(\boldsymbol{x}))=\phi(p(\tilde{\boldsymbol{y}} | \boldsymbol{x}))$
$=\psi\left(\left(T^{-1}\right)^{\top} p(\tilde{\boldsymbol{y}} | \boldsymbol{x})\right)=\psi(p(\boldsymbol{y} | \boldsymbol{x}))$

$\blacksquare$

结论是向前修正的loss得到的minimizer与是干净数据上的一样。link函数起到了此作用，不用关心noise的水平。

整个算法

哎呀懒得写了，大概的意思就是说假设每一类都至少有一个正确标签的观测样本，且softmax的确近似了T中的元素。

既然一般T不知道，我们先在noisy数据上xjb练一波，用练好的分类器去试试一些unlabelled的数据，把T估计一下，估计的方法就是默认真实标签是概率最大的那个，其它累死了。

这样有了T之后可以用向前或者向后修正的loss重新刚数据集啦！！