通过几行代码就能搞定的事！为什么非要用100个GPU！脱掉裤子放屁

以我个人的浅见而言，一篇科学论文应该传达一种有能力解释某事的idea。例如，一篇证明数学定理的论文，一篇提出某种物理现象模型的论文。或者，一篇科学论文可以是实验性的，实验的结果告诉我们一些关于现实的基本知识。尽管如此，科学论文的核心思想是对一些非平凡的普遍性（和预测力）或对现实本质的一些非平凡的观察的相对简洁的表述。

进群:125240963 即可获取数十套PDF哦！

！

通过几行代码就能搞定的事！为什么非要用100个GPU！脱掉裤子放屁

还有第四种论文，它确实提出一个idea。这个idea甚至可能是有用的，但它同时也是微不足道的。为了掩盖这种尴尬的事实，“学术工程”重炮再次上膛，使得论文整体上看起来令人印象深刻。

通过几行代码就能搞定的事！为什么非要用100个GPU！脱掉裤子放屁

论文地址：https://arxiv.org/pdf/1807.03247.pdf

只需大约50行python代码的事情

通过几行代码就能搞定的事！为什么非要用100个GPU！脱掉裤子放屁

卷积网络确实不能很好地解决这个问题，因为卷积神经网络的原始模型神经认知机（Neocognitron）的设计就是忽视位置的。接下来，作者提出了一个解决方案：在卷积层中添加坐标，作为附加的输入映射。

通过几行代码就能搞定的事！为什么非要用100个GPU！脱掉裤子放屁

卷积层和添加坐标的CoordConv层

通过几行代码就能搞定的事！为什么非要用100个GPU！脱掉裤子放屁

Not-so-Clevr数据集

那么他们的实验是否聪明呢？让我们看看。

通过几行代码就能搞定的事！为什么非要用100个GPU！脱掉裤子放屁

论文中使用的Toy tasks

任务之一是基于坐标生成一个one-hot图像，或者基于一个one-hot图像生成坐标。实验表明，将坐标添加到卷积网络确实可以显著提高性能。

通过几行代码就能搞定的事！为什么非要用100个GPU！脱掉裤子放屁

他们在ImageNet上尝试了这个坐标特征，将它添加到ResNet-50网络的第一层。我认为不会有太大的差别，因为ImageNet中的类别读取不是位置的函数（如果存在这样的偏差，那么在训练期间的数据增强应该完全删除它）。所以他们用100个GPU来训练网络（100个GPU！天啊！）。然而，到小数点后第4位，结果才显示出一点差异。Facebook、谷歌的人可能会用10000个GPU来复现这个结果吧。这些GPU能不能用来做些更重要的事情?

通过几行代码就能搞定的事！为什么非要用100个GPU！脱掉裤子放屁

通过几行代码就能搞定的事！为什么非要用100个GPU！脱掉裤子放屁

猜你喜欢