【论文阅读45】Fractional-DNN

本文标题Fractional deep neural network via constrained optimization,就是分数阶方程介导的DNN

本文单纯从历史信息的利用、方程的离散化等思路,得到此分数阶网络Fractional-DNN

文献信息

作者信息:作者来自乔治梅森大学,数学与人工智能系和计算流体力学系。

文献地址:https://iopscience.iop.org/article/10.1088/2632-2153/aba8e7/meta

期刊信息:

  1. 本文发于2020年底的Machine Learning: Science and Technology (MLST),期刊信息参见researchgate介绍MLST官网,至2021/03/28谷歌引用量3
  2. 期刊似乎是刚刚见刊,搜不到IF,但是知道吴恩达在上面参与过用莫比乌斯变换做数据增广的文章
  3. 注意到它的track审稿进度界面有微信支持,我感觉这刊和咱们有关。。可能和这个有关?

总体个人观感

这篇文章像是研究机器学习不深,和很懂方程的作者写出来的,这一点可以从作者信息上体现出来一点。注意到本文

  • 暂时没有开源代码
  • 没有引用NODE
  • 读完后发现文章偏重物理、方程理论,网络的优化算法以及方程离散化是参考DenseNet等得到的启发
  • 感觉本文对神经网络其实是不太熟悉的,很久没见到专门介绍ML概念和NN概念的文章了
  • 作者已经于本年年初自引了此文

这些因素让我觉得文章写得其实不是很充分,有余地,还有搞头【手动憧憬😃】

文献小结

小结不想写了,其实就是上面的个人观感吧,内容上读完了觉得正常,不差,但是也没那么猛

具体内容

背景领域

这篇文章不是从NODE的思路切入的,作者关注更多的是偏方程理论的,比如Karniadakis这个人从pde/物理角度切入的NN模型:fPINN

那么本文声明本文的Fractional-DNN与之完全不同,只是思路不同。。感觉说话的力度一下子就无了qwq

Caputo分数阶导数

参考华师的讲义可以辅助理解本文$(2.2)$节中的Caputo分数阶导。细节就不说了,放一个左导数有个印象:

主要是Caputo把左右分数阶导的定义分开了,见原文第3页的式$(3,4)$,这里要注意的是,这里的阶数必须是限制在$(0,1)$的,定义如此,区间外的没有定义,原因暂时不知,参考华师讲义

当然,当阶数趋于1时,Caputo就退化为普通的整数1阶导了,左右Caputo导数经过分部积分就成为原1阶导(已会推导,把阶数看成一般的整数分部积分即可)

后续的定理不管了,不过很重要,后面总问题写成优化泛函后,推导是用到了左右导数分解的性质的

注:本文表示不用那个刘维尔的分数阶导是因为常数的刘维尔导非0,这样在边界处很难处理。参考华师讲义

动机/idea

(1)希望把历史/记忆信息引入学习模型中,由此引入网络每层直接潜在的连接

(2)分数阶方程增强历史信息,与分数阶导算子是non-local的有关

(3)网络和ODE/PDE之间的联系,引入分数阶方程的离散化及其算法

(4)利用dense block结构缓和梯度消失问题

(5)做ML的理论是基础而重要的事情,如果能把一个网络做好也不戳

模型Fractional-DNN

本文直接把提出的模型命名为Fractional-DNN,分数阶神经网络

Fractional-DNN是基于算法设计的,所以应该算是model-based;训练本身还是基于数据,但learning-based的成份很弱

该分数阶网络一步一步导出的思路是

其中第1步,RNN作为优化问题就是优化损失,条件就是RNN的结构,参考文章第4、5页式$(7,9)$,形式很简单,主要是条件作为ODE,RNN每一层的变换也作为欧拉前向法的一步

第2步,现在考虑连续形式下的分数阶方程,它作为网络只需要在DNN作为优化问题的基础上变形即可,我觉得也不需要是在RNN的基础上,文章重点提RNN可能是它与方程、上下文信息利用的联系较多。变形就是优化的目标函数可以保持loss不变,只是优化的约束改成分数阶网络,由一步(整数1)欧拉前向变成分数阶导数

第3步,优化的目标设定成特定损失,本文的实验是分类,所以设定成交叉熵(加正则)。但本文也表示回归也类似,这一点我觉得很奇怪,因为文章特地分了一个小章节介绍CE损失。。。

第3步结束后,就是要采用拉格朗日乘子法求解能量泛函,然后得到迭代式了,所以先放出第3步的网络作为优化问题的表达式:

那么在第3步和第4步之间就是用拉格朗日乘子法解一下式$(3)$,得到连续形式的迭代格式。具体的计算不放了,挺多的,原文第6、7页的式$(13-16)$。说句实话吧,$(15)$式的伴随方程为什么是对约束方程的主变量求导,难道不是对主优化问题的参数求导么?后面的式子我也没看了

再到第4步,离散化方程,这就是像NODE的思路了,只不过本文的idea和NODE的是有很大区别的。本文离散化约束ODE方程并不是NODE那样直接作为欧拉前向法中的中间层,而是采用了所谓的$L^1$机制我没看懂,但是觉得式$(18)$像是分数阶导数的一阶泰勒展开,本质上像是给定ODE方程后,对分数阶导数的近似估计。。。后续$L^1$机制参照文中第7页及以后的$(17-26)$式

注意:文章特地提到,如果指定优化迭代的算法,那么算法一般是与方程本身无关的,也就是和网络本身无关。所以,如果指定优化迭代算法,就不用限制网络的结构,包括层数等

注2:文章提到了参数化卷积核。。用于减少式$(3)$中未知参数的数量,确实,是可以减少一点的。而且这样也是和PDE-Net有所结合的

优点

(1)似乎是因为引入历史信息/记忆的缘故,对梯度消失问题表现较好(应该是参考DenseNet的思路)

(2)拟合非光滑数据&非光滑函数(别的文章好像很少提这个事情吧)

(3)可能是分数阶导带来的好处,导出网络跨层连接缓和梯度消失问题、对非光滑函数的拟合、DE工具都可以整活

(4)确实如文所述,本文讨论了很多原始NN的理论,不过是迭代优化算法,更是model-based了

缺点,我不喜欢最后迭代机制中的$L^1$机制,对分数阶导算子还有估计;以及实验的数据太小了,也太少了

实验

本文主要是在两个小数据集上做了实验,分别是二分类的CLS数据(自己生成的那种)和香水多分类数据

参考文献/链接

[1] Harbir Antil, Ratna Khatri, Rainald Lner, and Deepanshu Verma. Fractional deep neural network via constrained optimization. Machine Learning: Science and Technology, 2(1):015003, 2020.

1
2
3
4
5
6
7
8
9
10
11
12
13
@article{RN47,
author = {Antil, Harbir and Khatri, Ratna and Löhner, Rainald and Verma, Deepanshu},
title = {Fractional deep neural network via constrained optimization},
journal = {Machine Learning: Science and Technology},
volume = {2},
number = {1},
pages = {015003},
ISSN = {2632-2153},
DOI = {10.1088/2632-2153/aba8e7},
url = {http://dx.doi.org/10.1088/2632-2153/aba8e7},
year = {2020},
type = {Journal Article}
}

[2] 华师讲义,涉及本文Caputo分数阶导数详细的定义:http://math.ecnu.edu.cn/~jypan/Research/papers/lect_FDE.pdf

[3] 分数阶导数的讨论(用处不大):http://muchong.com/html/201203/4223380.html

[4] 搜到了另一篇像是水文的文章:Fractional-Order Deep Backpropagation Neural Network,期刊是奇怪的hindawi的18年Computational Intelligence and Neuroscience,此文代码在此。有空浏览一下