通过几行代码就能搞定的事!为什么非要用100个GPU!脱掉裤子放屁

以我个人的浅见而言,一篇科学论文应该传达一种有能力解释某事的idea。例如,一篇证明数学定理的论文,一篇提出某种物理现象模型的论文。或者,一篇科学论文可以是实验性的,实验的结果告诉我们一些关于现实的基本知识。尽管如此,科学论文的核心思想是对一些非平凡的普遍性(和预测力)或对现实本质的一些非平凡的观察的相对简洁的表述。

进群:125240963  即可获取数十套PDF哦!

通过几行代码就能搞定的事!为什么非要用100个GPU!脱掉裤子放屁

通过几行代码就能搞定的事!为什么非要用100个GPU!脱掉裤子放屁

还有第四种论文,它确实提出一个idea。这个idea甚至可能是有用的,但它同时也是微不足道的。为了掩盖这种尴尬的事实,“学术工程”重炮再次上膛,使得论文整体上看起来令人印象深刻。

通过几行代码就能搞定的事!为什么非要用100个GPU!脱掉裤子放屁

论文地址:https://arxiv.org/pdf/1807.03247.pdf

只需大约50行python代码的事情

通过几行代码就能搞定的事!为什么非要用100个GPU!脱掉裤子放屁

卷积网络确实不能很好地解决这个问题,因为卷积神经网络的原始模型神经认知机(Neocognitron)的设计就是忽视位置的。接下来,作者提出了一个解决方案:在卷积层中添加坐标,作为附加的输入映射

通过几行代码就能搞定的事!为什么非要用100个GPU!脱掉裤子放屁

卷积层和添加坐标的CoordConv层

通过几行代码就能搞定的事!为什么非要用100个GPU!脱掉裤子放屁

通过几行代码就能搞定的事!为什么非要用100个GPU!脱掉裤子放屁

Not-so-Clevr数据集

那么他们的实验是否聪明呢?让我们看看。

通过几行代码就能搞定的事!为什么非要用100个GPU!脱掉裤子放屁

论文中使用的Toy tasks

任务之一是基于坐标生成一个one-hot图像,或者基于一个one-hot图像生成坐标。实验表明,将坐标添加到卷积网络确实可以显著提高性能。

通过几行代码就能搞定的事!为什么非要用100个GPU!脱掉裤子放屁

通过几行代码就能搞定的事!为什么非要用100个GPU!脱掉裤子放屁

通过几行代码就能搞定的事!为什么非要用100个GPU!脱掉裤子放屁

通过几行代码就能搞定的事!为什么非要用100个GPU!脱掉裤子放屁

他们在ImageNet上尝试了这个坐标特征,将它添加到ResNet-50网络的第一层。我认为不会有太大的差别,因为ImageNet中的类别读取不是位置的函数(如果存在这样的偏差,那么在训练期间的数据增强应该完全删除它)。所以他们用100个GPU来训练网络(100个GPU!天啊!)。然而,到小数点后第4位,结果才显示出一点差异。Facebook、谷歌的人可能会用10000个GPU来复现这个结果吧。这些GPU能不能用来做些更重要的事情?

通过几行代码就能搞定的事!为什么非要用100个GPU!脱掉裤子放屁

猜你喜欢

转载自blog.csdn.net/qq_42156420/article/details/81168813