【论文阅读24】On Second Order Behaviour in ANODE——真二阶NODE

On Second Order Behaviour in Augmented Neural ODEs,简称SONODE,似乎是2020ICML的文章但是我没有搜到…

文献链接:https://arxiv.org/abs/2006.07220

SONODE是非常新的一篇文章,发布于2020/06,是剑桥的人写的。该文是一个非常理论的东西,基本上是基于ANODE、NODE,附录有好多证明,现在还是啃不动,只能啃一些浅层的东西,记录于此

Hook——a simple comparison

之前写过一篇比较ODE2VAE和ANODE文章的比较,大概意思是说ODE2VAE中对二阶导的建模本质上可以看成ANODE在维度上进行增广的一个特例。而本文SONODE是我读的一篇关于ANODE对2阶导处理的文章,可以看成是两个NODE在ANODE的框架下套娃,而且比较理论了,基于原始NODE的理论进行了拓展,不过更多地和ANODE进行比较

笔记写得差不多了,这里再补上一些比较,原文认为SONODE不错的一个原因是它更多地考虑了实际ODE,模型的动力性质,对物理过程的描述更好一些。不过我觉得也就是多建模了一个二阶导啊,只是结合了增广维度的思想,建模的过程也没有那么物理…

Why SONODE?——背景

话不多说,直接上背景

背景之一是基于NODE、ANODE,这类模型非常不错,就是奔着描述连续动力系统去的,未来应用一定大好👍;背景之二是之前这些模型只讨论了一阶的性质,缺乏对ODE二阶导的讨论,这也是我在关注的

所以本文的idea很朴素,就是顺着ANODE推广到2阶导的情形,就成为SONODE模型。不过idea朴素,方法却比较复杂,本文顺着NODE推广了它的adjoint sensitivity方法,这个尤其复杂,都在附录里我就不看了嘻嘻。另外,本文在得到SONODE之后做了大量实验,探究了许多对ANODE和SONODE的理解与比较,这些东西内容满满啊!

What’s SONODE——实现方法

先回顾一下在NODE上做了维度增广的ANODE:

2阶NODE的建模考虑到了要拟合二阶导,SONODE就是这样一个非常暴力直观的想法,直接对二阶导建模(联想之前ODE2VAE利用贝叶斯神经网络来学习之),如下所示:

其中上标 $(a)$ 表示这个网络函数 $\mathbf{f}$ 相当于是拟合加速度的函数。原始函数初值 $\mathbf{h}(t_0)$ 和一阶导初值 $\mathbf{h}^{\prime}(t_0)$ 都给定了

而这个暴力的建模方式相当于把ANODE的增广维度设置成一阶导 $\mathbf{h}^\prime(t)$ :

如上所示, $(1)$ 式和 $(2)$ 式形式上其实是一样的,即对二阶导的暴力建模 $\Leftrightarrow$ 两个NODE以ANODE的方式嵌套

Theory of SONODE——NODE理论延拓

这个主要是NODE中adjoint method的延拓了。由于SONODE可以看作两个NODE在ANODE的框架下套娃,那么作者就考虑了一阶adjoint method延拓成二阶,进而辅助网络的训练

式子为原文命题 $(3.1)$ 但是我真心不想看证明估计也看不太明白…

进一步,原文给出了这个adjoint method的计算性质比较,即原文命题 $(3.2)$ ,说的是计算复杂度的问题,只用两组一阶adjoint method计算要优于用二阶的adjoint method,后者应该是需要更多的矩阵乘法运算。因此,文中的实验都是准备用两组一阶adjoint method来计算的

How to Use SONODE——Experiments

这篇文章做了很多实验,我稍微整理了一下,前三个主要是为了说明SONODE的基本性质;第4个是为了说明SONODE和ANODE二阶性质的比较;后面的是为了进一步以困难数据说明二者二阶性质的比较:

实验名称 实验简介 实验结果
Generalised Parity Problems 是原来NODE提到的相图不交问题的高维推广——高维初值问题 ANODE没能学到最一般的轨迹;SONODE学到了(结果如此但我不太明白)
Nested N-Spheres 似乎是两个N维球面嵌套的分离问题,并在流(轨)形(迹)意义下讨论 NODE不能在原来的实空间中分离轨迹;ANODE在增广的维度上分离了轨迹;SONODE在实空间中就做到了轨迹分(相)离(交)(不太明白原理),并提出了命题 $(3.3)$ ,SONODE不被限制在实空间上的同胚变换,毕竟实空间上就成功做到相图相交了
2 Damped Harmonic Oscillators 即2个衰减简谐振动轨迹的学习 只是说明了,ANODE扩充维度不用超过原来实空间维度,也能学到一定的二阶性质
Interpretability of ANODES 对一些较不规则螺旋线进行学习 SONODE和ANODE在该问题上的表现为:ANODE在不同初始化条件下结果不同,其实空间上轨迹一致,但增广维度上轨迹不同(有点迷);SONODE轨迹始终一致。这说明ANODE的二阶导学习得还是可能有问题,可能不适合实际问题的应用。更进一步的结果是,原文提出命题 $(5.2, 5.3)$ ,表示ANODE可学习的非平凡二阶导形式是无限的,SONODE的则是唯一的(这么强的么?👍)
Noise Robustness 对 $\sin$ 函数加不同水平高斯噪声 图7的结果表示SONODE更稳健
Real-world Dynamic Systems 实际数据 不太明白,反正看图猛就完了

Pros & Cons

写到这里总觉得文章哪里不太对劲,先这样吧,说不定用到的时候就明白了。

Pros Cons
本文的idea很正统,基于ANODE研究2阶性质,不仅给出了adjoint方法的延拓,还与双ANODE联系在一起 此类方法由于应用非常直接,确实很容易用于不好的用途。。这个问题挺人文的,我还是希望人类能和平发展技术。。
理论的保证还是比较足了,主要是adjoint方法、以及确实是在对真正的二阶导建模 文中提到了一手ANODE增广的维度可能发生混乱,是指学到的东西没有可解释性么,这个只提了几句没讲清楚
对比ANODE的实验做得很多,确实让我们看到了建模二阶导带来的优势 二阶导adjoint方法推导似乎就比较复杂,那高阶推导难道要一直嵌套么?这不是我们想要的
此一类方法的潜力都很好,应用场景必然很多,且已经出现!本文二阶方法则尤其适合存在加速度的场景 TBD

参考链接

[1] Alexander Norcliffe, Cristian Bodnar, Ben Day, Nikola Simidjievski, and Pietro Liò. On second order behaviour in augmented neural odes. arXiv preprint arXiv:2006.07220, 2020.

[2] Emilien Dupont, Arnaud Doucet, and Yee Whye Teh. Augmented neural odes. In H. Wallach, H. Larochelle, A. Beygelzimer, F. d’Alché-Buc, E. Fox, and R. Garnett, editors, Advances in Neural Information Processing Systems 32, pages 3140–3150. Curran Associates, Inc., 2019.

[3] Cagatay Yildiz, Markus Heinonen, and Harri Lahdesmaki. Ode2vae: Deep generative second order odes with bayesian neural networks. In H. Wallach, H. Larochelle, A. Beygelzimer, F. d’Alché-Buc, E. Fox, and R. Garnett, editors, Advances in Neural Information Processing Systems 32, pages 13412–13421. Curran Associates, Inc., 2019.

[4] Tian Qi Chen, Yulia Rubanova, Jesse Bettencourt and David Duvenaud. Neural Ordinary Differential Equations[EB/OL]. https://arxiv.org/abs/1806.07366, 2018.