The website uses cookies. By using this site, you agree to our use of cookies as described in the Privacy Policy.
I Agree
blank_error__heading
blank_error__body
Text direction?

spherical CNNs 论文解读

先想清楚自己想要什么吧

本文主要是尽自己的能力尝试对ICLR2018的论文Spherical CNNs 进行解读,鉴于文章中出现了大量群论的概念,本文首先对作者T.S. Cohen将群论应用于图像识别方面上的一篇早期论文Group Equivariant Convolutional Networks进行分析。两篇文章的不同之处在于早期的文章关注的仅是旋转和翻转的平面图,群论的应用也较为简单,而后一篇论文则上升到球面图的应用,涉及的理论知识更多。对早期的文章的分析有助于更好理解spherical CNNs。

下面拟分成三部分进行展开:文章的出发点及要解决的问题、对Group Equivariant Convolutional Networks进行分析、对spherical CNNs进行分析。

由于最近时间比较紧张,后两部分的分析还在修改和完善中。如果在阅读时发现本文的分析中有任何问题,欢迎指正和讨论。本人新手小白一只,请多多指教。

文章的出发点及要解决的问题

传统CNN网络的视觉信息提取能力一方面来源于权重共享,另一方面来源于神经网络的深度。权重共享的前提是平移对称性,也就是不管目标在图像的左边还是右边,其标签或者数据分布并不会改变。应用权重共享可以减少参数,从而有更多的空间学习更多的变换。而深层神经网络的前提在于平移等变性,也就是先平移对象再放到神经网络中分析,得到的结果跟把原图放入神经网络,之后再平移得到的特征图(feature map)一样。这样可以保证神经网络的高层也可以提取特征,从而可以对特征进行更深入的分析。深层网络的等变性跟权重共享的对称性本质一样,等变性是为了保持对称性。这个性质也正是这两篇文章关注的重点。

但是,上述的等变性仅涉及到目标在图像中的平移,对于图像的旋转及翻转,往往需要通过数据增强来进行。根据本文的理解,数据增强需要大量的工作,将一张图像旋转或者翻转后再加入神经网络中识别只能对对应图像起到作用,而对于其他图像,仍然需要继续同样的操作。而这两篇文章主要思想在于通过对核的旋转和翻转来达到数据增强的效果,相比直接用数据增强可大大提升效率。并且由于核的大小往往远小于图像,这也可以进一步在提升准确率的同时提升计算效率。相比于其他如胶囊网络等通过学习目标的外在表现来提升网络准确率,作者希望可以通过从目标的结构层面进行提升。原文描述是探索包含旋转和翻转在内的更大的对称群。

首先简单介绍一下群论的知识。群论里重要的两个概念,一个是对象,一个是操作。对象在这里对应要进行识别的图像或者卷积核,而操作对应将图像旋转、翻转等一系列满足某些限制条件的对称性变换的集合。两篇文章所涉及的群,都是对称群,也即对一个对象进行操作并不会改变对象本身的性质。这样的操作称为一个群元素,一类群元素构成一个群。这样的群需要满足三个条件。一个是将两个对称的变换组合在一起,依然是对称的变换。一个是逆变换依然是对称的变换。还有一个是将变换和逆变换结合在一起将得到单位变换,相当于不对原对象进行任何的操作。

那么,引入群论有什么作用呢?群有一个性质,如果两个群满足双射的条件,也即存在一个变换,可以让两个群的元素一一对应,那么就称这两个群是同构的。原文中的同构特指等距同构。等距同构是指在度量空间之间保持距离关系的同构。在几何学中对应全等变换。同构的群具有一样的群性质,研究其中任何一个群得到的结论可以适用于与其同构的群。根据本文的理解,作者的意思是将输入的旋转或者镜面翻转的图像看成是对原图进行操作,对应一个群,要找到另一个群对卷积核进行操作,得到的结果须跟原图原卷积核处理得到的结果一样,也就是等变性。这里同构指的是对原图进行操作的群和对核,或者按照原文的说法,对图像所在空间进行操作的群满足一一对应的关系,并且均满足对称群的条件。既然群性质一样,那么就可以通过分析对核操作的群来间接分析对原图进行操作的群,获取变换后的图像信息。

主要参考的资料:
(1)When Symmetry Meets CNN--从群等变卷积网络(Group Equivariant CNN)到球面卷积网络(Spherical CNNs)
(2)如何评价球面卷积神经网络(Spherical CNNs)?

Measure
Measure
Related Notes
Get a free MyMarkup account to save this article and view it later on any device.
Create account

End User License Agreement

Summary | 6 Annotations
群论里重要的两个概念,一个是对象,一个是操作
2021/01/09 10:39
对象在这里对应要进行识别的图像或者卷积核
2021/01/09 10:39
操作对应将图像旋转、翻转等一系列满足某些限制条件的对称性变换的集合
2021/01/09 10:39
如果两个群满足双射的条件,也即存在一个变换,可以让两个群的元素一一对应,那么就称这两个群是同构的
2021/01/09 10:40
度量空间之间保持距离关系的同构
2021/01/09 10:40
得到的结果须跟原图原卷积核处理得到的结果一样,也就是等变性
2021/01/09 10:41