论文笔记:ReNet:畳み込みネットワークへのAリカレントニューラルネットワークベースの代替

1つの概要

本稿では、前記図2を得、代わりRNN +プール畳み込み演算部を使用するネットワークの大部分、画像ブロックRNN部の水平走査、垂直走査を使用して、物体認識のための深さReNetと呼ばれるニューラルネットワークアーキテクチャを提案しますその後、ステッチ。ネットワークMNIST、CIFAR-10は、SVHNは、より優れた性能を持っているデータセット。

2つのハイライト

2.1 RNNを用いた画像処理

著者は、細胞層+畳み込み層の使用は、画像情報の重大な損失になるだろうと信じています。そこで、著者らは操作をプール避けるためにRNNを使用しました。RNNのようなシーケンスを処理する一般的なデータである:音声認識、機械翻訳、図RNNの構造は、次の
ここに画像を挿入説明
各モーメントは、現在および以前に関連しているRNN、RNNは、右に左に拡張することができる参照します。RNNについてのより詳細な情報はを参照することができます。

RNN-エントリから放棄します

それは通常、多次元RNNを使用して、画像を処理している場合、それは多くの層があるRNNです。これは、大量の計算を行います。著者らによって提案されたRNNアプローチは、通常のプロセスとは異なる多次元画像RNN RNNプロセスを使用することです。著者は、(画像の一行だけを扱うかの処理BRNNを使用する予定BRNNの詳細は、それを突く!)、BRNNは双方向RNNです。IXJ画像はサイズのブロック毎に分割されています ワット P w_p × 時間 P h_p RNNは、配列情報を処理するのが得意であるので、それぞれが、各ブロックは時点であり、双方向走査を横切る、RNN部処理(ブロック行列の展開処理)を使用し、順次RNN部に供給され、特徴マップを得るために。垂直双方向走査は、別の特性図を取得し、前記2つのスプライシング図。図は、次の
ここに画像を挿入説明
場合に双方向走査、その演算処理以下、各画像ブロックは、双方向放電処理であるため、 F V F W D F_ {VFWD} F V R E V F_ {} VREV これは、両方の方向に処理されます。 F V R E V F_ {} VREV RNN機能は、処理ユニットを表します P J P_ {I、J} ピクセルの各ブロックについて、 から J - 1 F Z ^ {F} _ {I、J-1} RNNは、処理入力の一定の割合の処理の結果です。他の方向で機能手段は、同じトークンです から J + 1 F Z ^ {F} _ {I、J + 1} これは、将来の一定の割合のRNN部を表し、現在の画像ブロックが処理されます。
ここに画像を挿入説明

2.2 ReNet全体構造

在总体中,肯定需要多层RNN处理特征图,越深度的RNN处理得到的特征图更加连续和光滑,也就是融合更多的全局信息。如下图:
ここに画像を挿入説明
先对32x32的图像分成16x16个2x2的图像块进行垂直RNN扫描得到16x16的特征图,再分成16x16个1x1的图像块进行水平RNN扫描得到16x16的特征图。将特征图分成8x8个2x2的图像块进行垂直RNN扫描,得到8x8的特征图…到最后得到512x4x4的特征图再进行一次水平扫描得到全连接层,最后接一个sortmax分类。这就是完整的一个使用RNN处理的图像分类模型。其中双向RNN扫描代替了CNN+池化层。可以说ReNet的每一层可以看做是卷积+池化的一个变种。

3 效果

ここに画像を挿入説明
这是在三个数据集上的表现效果,可见此种方法表现不错,能达到一些CNN处理的效果。

4 结论

本文相对来说较简单,提出双向RNN替代CNN+池化层,并取得不错的效果,此外,还可以使用更多其它类型的RNN处理,如:LSTM、GRU等等。使用RNN处理图像算是比较新的思路,对后面的图像分割有一些的启发。

5 参考资料

(1)ReNet: A Recurrent Neural Network Based Alternative to Convolutional Networks
(2)【论文】ReNet: A Recurrent Neural Network Based Alternative to Convolutional Networks
(3)RNN—从入门到放弃
(4)BRNN详细资料戳这!

公開された24元の記事 ウォン称賛27 ビュー10000 +

おすすめ

転載: blog.csdn.net/gyyu32g/article/details/104423351