【论文阅读42】神经流形ODE——进一步可构建CNF的流形版本MCNF

本文的标题Neural Manifold Ordinary Differential Equations着实是吸引了我(自己记为MODE

摘要里也说这算是NODE的流形版

那就看看和之前看的深度微分同胚归一化流DDNF有啥区别,估摸着大概是DDNF是直接假设隐变量在流形上积分,这个MODE还有把隐变量逆回原始数据空间的操作

ps:这份笔记写急了,写得很烂。。。不喜请勿食用

文献信息

这篇文章是NeurIPS 2020上的,作者主要来自康奈尔和脸书,其中最后一个作者Christopher De Sa是康奈尔大学的,看看人家的研究,就离谱。。。

本文提出的框架叫神经流形ODE,简称MODE;进一步结合NF提出MCNF,流形连续归一化流

文献地址:

背景方法

由于本文针对的问题是数据中几何结构的建模,所以自然的想法就是隐变量分布在流形上。由此,基本的背景方法是生成模型,偏的建模或者和流形的联系,有一定可解释性

具体的背景方法请见原文的第$(2)$章,related work

CNF似乎也是NODE,把隐变量建模,连续变化?查一下确认一下

动机/Idea

本文的动机是,生成模型要与流形结合使之有更直观的解释性。但是在推广到非欧几何后会有诸多限制,比如可能手动设计网络,对网络施加保持非欧几何性质的限制,这样也会难以推广到任意流形

我觉得文章说“难以推广到任意流形”是指若推广到任意流形,则整个映射是微分同胚,意味着数据的几何结构是一样的,而这不现实!

Idea是把NODE进行流形推广,只用(疑问:真的只用这个?)考虑局部流形限制,然后“推广”到整个流形上(疑问:那这个局部其实是很强的条件,这里所谓的推广应该只是指积分的过程,整个映射未必还保持微分同胚了)

Idea继续发散,归一化流NF大概是用一系列成串的可逆可微映射拟合一个复杂,且tractable的后验分布。NF中这个整体的分布变换是微分同胚,要求是forward映射的Jacobi好算,逆好算,采样好采。但正因为引入NF,要求两个分布其实是同胚,几何上等价,隐空间中必须保持拓扑性质,这其实对于大多数数据不成立。所以由此退而求其次,本文只取有限维光滑流形的假设,不必要是同胚,导出的模型叫做MCNF,流形连续归一化流

上述idea弄出来以后,可以理解为MODE的特例,即微分结构(chart)不取指数映射,取id

要解决的问题

本文针对的问题是数据几何建模,结合流模型、NODE的思想

模型MODE

基本的MODE很简单,DE设置到流形上即可,那么一阶导数其实就是切向量场

思路和之前写的深度微分同胚归一化流DDNF基本一致!然而投稿差异。。

此ODE前向和后向的计算不太一样,前者需要在流形上显示计算,后者单在欧氏空间中计算!

其中前向的gt(ground truth)一般用数值求解器(solver),过去就有两种方案:投影转化到欧氏空间中求解再投影回去;和隐式方法。在流形上会涉及真正流形上的计算,和李群、指数映射什么的有关。本文表示前者在全局流形意义下点的表示上有所缺陷,后者更简单通用一点,但是本文MODE不就是前者❓这个和我黎曼几何大作业翻译的文章是一致的❗

后向也不简单,涉及伴随方法、伴随梯度计算,我猜要用G导数和近似。似乎只要取$\mathbb{R}^{2n}$,那么由Whitney Embedding Theorem,$n$维流形$\mathcal{M}$上的曲线就可以嵌入此流形的周围空间(ambient space)。看了附录,本文定理$(4.1)$的证明挺简单的,只用了伴随的定义。这个定理只是帮助计算向后传播的梯度的

那么上述是MODE的思路,计算上就麻烦了,涉及欧氏空间到流形切空间的指数映射与伴随方法的G导数计算。为此使用了所谓的dynamic chart method方法近似优化,还是近似!详情见优化部分


进一步MODE的一个应用是CNF的流形形式,称为MCNF。这个推广很自然,想想CNF的结构,把隐空间变一下变到流形上就是了,这样看来CNF算是MODE的特例

道理与MODE一样,同胚通过把欧氏空间的局部动力性质积分,然后通过微分结构(本文用的说法是chart,和那个map一致)映射到流形上。CNF就转化到流形空间中了

训练/优化

MODE的思路只是一个框架,是本文general的神经流形ODE

具体计算使用了dynamic chart method,是一个欧氏空间-流形切空间之间变换的近似过程。用到MODE优化中,算是黎曼梯度下降的替代品。那么这个方法的一个关键是chart变换的选择,自然的选择是指数映射,局部流形切空间和欧氏空间就联系起来了,但是文章的指数映射为什么取成

我不是很明白它的具体选取方式,可能需要自己去查代码

文章这个方法的一大优点是提供了两个理论保证,此外还有别的:

  • 理论保证:定理$(5.1)$是流形ODE局部解的存在性;定理$(5.2)$是收敛性,有限次chart转换就可以了
  • 对于特定的非欧几何,这个dynamic chart method似乎可以更快,和近似的解析形式有关
  • avoid catastrophic gradient instability,这个没看,没看懂

优缺点

  • 流的思想使之适用于密度估计(density estimation)和流相关(downstream tasks)的问题

  • 与CNF的对比,是其流形形式manifold analogue

  • 与NODE的对比,其流形形式✅,且NODE的拓展,它基本上也可以用啊

  • broader impact,准确建模数据拓扑?确实有意义

缺点略,就是觉得和那个CVPRW2018思路一致,但它就加了个微分结构和一些理论

实验

实验不多,只有一个密度估计和一个变分推断的比较。总的来说,MODE比比较的方法都显著地好

但是实验不是太能看得明白,扫了一眼附录,觉得非常几何,这个虽然我喜欢,但是确实看不大明白,毕竟没研究过双曲空间、球面的具体性质

读审稿意见

感觉出来本文的作者有不少生物、物理上的认识,对方程、流形非常熟悉

里面也有一些我的疑问,比如chart的选择,作者回应,这是作为先验显式规定好的

参考文献

[1] Aaron Lou, Derek Lim, Isay Katsman, Leo Huang, Qingxuan Jiang, Ser Nam Lim, and Christopher M De Sa. Neural manifold ordinary differential equations. In H. Larochelle, M. Ranzato, R. Hadsell, M. F. Balcan, and H. Lin, editors, Advances in Neural Information Processing Systems, volume 33, pages 17548–17558. Curran Associates, Inc., 2020.

1
2
3
4
5
6
7
8
9
10
11
@inproceedings{NEURIPS2020_cbf8710b,
author = {Lou, Aaron and Lim, Derek and Katsman, Isay and Huang, Leo and Jiang, Qingxuan and Lim, Ser Nam and De Sa, Christopher M},
booktitle = {Advances in Neural Information Processing Systems},
editor = {H. Larochelle and M. Ranzato and R. Hadsell and M. F. Balcan and H. Lin},
pages = {17548--17558},
publisher = {Curran Associates, Inc.},
title = {Neural Manifold Ordinary Differential Equations},
url = {https://proceedings.neurips.cc/paper/2020/file/cbf8710b43df3f2c1553e649403426df-Paper.pdf},
volume = {33},
year = {2020}
}