由 An Intriguing Failing of Convolutional Neural Networks and the CoordConv Solution 引起的思考

文献来源
这里写图片描述
这里写图片描述
这篇文章提出卷积网络无法很好处理坐标的问题。如上图,直接对卷积网络输入坐标,然后让卷积网络输出一张在坐标周围渲染成的正方形块的图像。但结果不是很理想。文章提出在卷积网络层中添加一个坐标信息。如下图:
这里写图片描述
其实就是将一维坐标信息手工转化成利于卷积网络处理的二维信息。但我不是太赞同这种方法,虽然从目前来看也是一种不错解决办法。因为我感觉这方法只是一个折衷方法,并没有真正解决文章中提出的问题。文中卷积网络输入的是坐标,这是一个一维信息,但网络输出的是二维图像,这是一个二维信息。这个问题有点像如何让神经网络根据一维空间信息理解二维空间。相比于人类从三维凭空理解四维,这个task多了一个二维的label信息来帮助神经网络理解二维空间。

然而这些都不是重点。。。借助这篇文章我有点理解,为啥从三维理解四维这么难。
首先我们基于一维空间理解一下输入的坐标。对于一维空间的生物来说,其能够建立的空间坐标系只能是一条直线,那么对于输入的坐标i=1, j=3,在他们看来只能是这样的:
这里写图片描述
也就是在他们看来i,j的大小只能反映在直线上。但一维生物是无法理解二维,他们想不到二维空间的坐标系居然是这样:
这里写图片描述
这时候输入的坐标信息就转化成二维空间的坐标:
这里写图片描述
这也就是为啥卷积网络为啥无法处理输入的坐标点,因为它压根不知道这是啥东西。在它看来,它只是接收了两个具有大小的数值,并不知道它们之间有啥关系,它们的大小表达的是什么意思。尽管有着label信息做为训练指导。所以这是个有意思的问题,如何让神经网络自动的理解这个输入坐标是二维空间的坐标点。

猜你喜欢

转载自blog.csdn.net/qq_16234613/article/details/81052583