The website uses cookies. By using this site, you agree to our use of cookies as described in the Privacy Policy.
I Agree
blank_error__heading
blank_error__body
Text direction?

spherical CNNs 论文解读(二)--对Group Equivariant Convolutional Networks进行分析

先想清楚自己想要什么吧

本文是《spherical CNNs 论文解读》的第二部分,对作者T.S. Cohen的早期论文Equivariant Convolutional Networks进行分析。

下面拟分成三部分进行展开:文章的出发点及要解决的问题、文章的具体思路、实验部分、文章的贡献总结。

文章的出发点及要解决的问题
这篇文章主要解决的是如何正确识别旋转了的图像。目标在图像中的平移不改变提取这个目标信息的结果,这样的平移对称性来源于核在对图像进行卷积的时候就是通过平移进行的,实际上相当于已经经过了对核的平移处理,对应包含平移变换的Z2群。文中有具体的证明,此处不赘述。
值得关注的是,文中特地提到,在核不做任何变换的前提下,将图像旋转后再进行卷积和先卷积再旋转,得到的结果是不一样的,跟图像平移不同。如果要保证两者一样,还必须对核也进行旋转操作。

文章的具体思路
针对上述结论,文中引入了两个群对核进行扩充,形成核的库,一个是p4群,另一个是p4m群。p4群包含的操作有平移和关于正方形网格中的任意旋转中心旋转90°。文中采用矩阵的形式对群进行参数化,群作用于对象后得到的输出即为对应的群矩阵与对象点乘的结果。p4m群比p4群多了一种群元素,镜面反射。可以看到,不管是p4还是p4m,其中的群元素均满足对称群的三个条件。

文中对p4群进行参数化表示:

其中,0≤r<4,r=0对应无旋转,r=1对应旋转90°,以此类推,r=4对应360°,跟r=0情况一样,所以大于等于4的旋转均可以用前面的方式表示。而u,v则对应水平和竖直方向上的平移,也就是:

对p4m群则可以类似表示为:

其中,m取0或1,表示是否进行了镜面反射。
接下来为了实现前面提到的想法,文章定义了G互相关,也就是新的卷积公式,把对核的操作考虑进去。

新的互相关公式
新的卷积公式

作者提到,互相关和卷积公式实际上并不一样,如果在前向传播的过程中采用了互相关公式进行卷积操作,那么在后向回传的时候就会涉及到卷积公式,反之亦然。很多资料将这两种统统称为卷积,作者这里提出他们之间的区别是为了证明不管前向还是后向,卷积均满足等变性。

接下来,对于神经网络中三种经典的层:卷积层、池化层和非线性层,作者一一证明了其跟这种核的群变换都是可以互换的,也就是可以保持等变性。作者认为,池化的作用在于对特征图进行下采样进而减少变量。这里的池化分成不带步幅的池化以及对池化后的特征图进行下采样。在群中,如果一部分群元素可以满足群的定义,那么就称为原来的群的子群。对子群进行变换,可以得到陪集,也就是子群的子区域。陪集将原来的群划分为互不重叠的区域。由于对陪集进行池化得到的特征图不会随着子群不同的变换而改变,也就是尽管陪集的表示有不同方式,但可以对任意一个陪集的表示进行下采样,原文称之为陪集池化。原文中给出如下例子。对于一个满足p4对称性(平移对称性和旋转90°的对称性)的特征图,我们以涉及到旋转操作的子群作为池化域,对空间中每个点关于四度旋转(90°,180°,270°,360°)各做一次池化,还有一次关于平移变换的池化。对应下采样的特征图跟下采样的子群等变而跟大群不等变,但是对特征图的分析总是将整个特征图的所有通道结合起来的,结合后的特征图跟原来的群依然等变。于是有望在深层神经网络中用新的卷积方式替换原来的卷积操作,使得参数共享在任意深度均可以发挥作用。

实验部分
1. Rotated MNIST

2. CIFAR-10

文章在旋转了的手写数字集和CIFAR-10数据集中进行实验并取得了目前最好的结果。另外,对原CIFAR-10数据集和数据增强后的CIFAR-10数据集,文章在All-CNN和ResNet44两种网络下加入p4群、p4m群进行核扩充。和原来处理方式相比,加入p4和p4m群得到结果均优于原来的网络,而数据增强对所有的网络均起到提升准确率的效果。原因在于p4和p4m群仅包含了特定的0°、90°、180°和270°这四个角度,只要数据增强中包含的变换所组成的群比这两个群包含的群元素多,就相当于对采用这两个群进行核扩充的神经网络的补充,进而提升准确率。

文章的贡献总结
总结一下这篇文献,其贡献在于加入了p4和p4m群对核进行扩充,提高了神经网络提取旋转图像信息的能力。G互相关增加的计算量仅在于对核的扩充,由于核的尺寸不大,利用矩阵可以很快完成,不会带来太多的计算量。并且在后面的实验中,为了保持各个网络的参数不会相差太多,采用了p4和p4m进行核扩充的网络将减少一定数量的原始卷积核。但是结果依然很乐观。局限性在于其仅仅适用于离散的群,因为要对每个群元素进行池化等操作。并且,对于大的群,群元素的全枚举也变得更加艰难。对于后续的研究发展,作者提出对六方格进行研究,因为六方格所包含的对称性比正方格多,也就更有可能适应现实情况中输入图像的多种变换。这个想法可以参考作者的Steerable CNNS这篇文章。另外,作者还提出将对二维图像的处理扩展到三维图像,这个想法则对应下面要进行分析的spherical CNNs这篇文章。

Measure
Measure
Related Notes
Get a free MyMarkup account to save this article and view it later on any device.
Create account

End User License Agreement

Summary | 2 Annotations
p4群包含的操作有平移和关于正方形网格中的任意旋转中心旋转90°
2021/01/09 10:46
池化的作用在于对特征图进行下采样进而减少变量
2021/01/09 10:47