リカレントニューラルネットワークによる可変レート画像圧縮

導入

  この論文はRNNをベースにした先駆的な研究であり、Todericiらが初めて畳み込みLSTMを用いて可変ビットレートでのエンドツーエンド学習画像圧縮を実現したものであり、RNNを用いた代表的な手法と言える。これは、任意の入力画像について、特定の画質の下で、再構成された画質効果が現在の最適な圧縮率よりも優れている可能性があることを検証しますが、この効果は 32×32 サイズの画像に限定されており、この方法を示しています。画像の依存関係をキャプチャするには不十分です。

コード

   このリンクのコードは論文の著者のものと同じではなく、構造もわずかに異なります。ただし、両方とも RNN 圧縮フレームワークに基づいており、いくつかの類似点があります。ここでコードを参照できます。有能な学生は、変更できるので表示してください。
コード

論文概要

  可変レート画像圧縮の一般的なフレームワークと、畳み込みおよび逆畳み込み LSTM リカレント ネットワークに基づく新しいアーキテクチャが、次の
  問題を解決するために提案されています。
(1) 入力画像のサイズと必要な圧縮率に関係なく、ネットワークはトレーニングを 1 回だけ必要とします (画像ごとではなく)。
(2) 当社のネットワークはプログレッシブです。つまり、送信されるビット数が多いほど、画像の再構成の精度が高くなります。
(3) 与えられたビット数に対して、提案されたアーキテクチャは、特別にトレーニングされた標準のオートエンコーダと少なくとも同じくらい効率的です。
  32×32 のサムネイルを含む大規模なベンチマークでは、LSTM ベースのアプローチにより、JPEG、JPEG2000、WebP よりも優れた視覚品質が得られ、ストレージ サイズが 10% 以上削減されます。

論文解釈

  本稿は 5 つのパートに分かれており、次に各パートの内容と関連する取り組みについて説明します。

導入

  このセクションでは、著者は主にこれまでの画像圧縮の取り組みを紹介し、過去には画像圧縮は大きな画像に好まれ、低解像度の画像は無視され、低解像度の画像は圧縮がより難しいという見解を提案します。が提案されている。また、今日のオートエンコーダの一部には、(1) 可変レートのエンコードは通常不可能であり、圧縮率ごとに 1 つのネットワークしかトレーニングできないなどの欠点も指摘されています。(2) 出力の視覚的な品質を保証するのは困難です。通常、出力は特定のスケール向けにトレーニングされており、そのスケールでの冗長性しかキャプチャできません。
  彼らのアーキテクチャは次の要件を満たす必要があると提案しました。
(1) 圧縮率は以前のビット バジェット内に制限できる必要があります。
(2) コーデックは、重要な視覚的特徴を含む画像領域により多くのビットを割り当てる場合があります。
(3) 実世界のデータに対してこの圧縮プロセスを最適化するために、モデルは既存の画像の大規模なセットから学習できる必要があります。

関連作業

  著者はエンドツーエンドのオートエンコーダ アーキテクチャを導入しました。ヒントンと彼の学生であるサラフトディノフは、2006 年に論文「ニューラル ネットワークのデータ次元削減」を発表しました。ここで使用されているネットワーク構造はディープ オートエンコーダです。(1)まず
、Encoder と呼ばれる次元削減ネットワークがあり、この Encoder は多数の隠れ層ネットワークのネットワーク構造であり、画像を入力すると、次元削減の結果を出力します。
(2) 次にボトルネック層があり、元のデータはボトルネック層の圧縮の下で厳密な非線形ベクトルに抽出され、非線形次元削減の効果が得られます。
(3) デコーダもネットワーク構造になっており、縮小画像を入力すると元の画像が出力されます。
  トレーニング前にボトルネック層のノード数を調整することで、エンコードされた画像の圧縮率と視覚的な忠実度を制御します。

ここに画像の説明を挿入します

  著者はまた、RNN アーキテクチャの 1 つである長期短期メモリ (LSTM) を提案し、畳み込み LSTM についても言及したため、これを画像圧縮のインスピレーションとして使用しました。畳み込み LSTM アーキテクチャの使用に加えて、他の単純なアーキテクチャも使用しました。このアーキテクチャでは、1 つのオートエンコーダーの残差を、後で 1 つずつ導入する別のオートエンコーダーへの入力として使用します。
  リカレント ニューラル ネットワーク (RNN、LSTM)

可変レート圧縮アーキテクチャ

  著者らは、一般的なニューラル ネットワーク ベースの圧縮フレームワークについて説明し、次にアーキテクチャの詳細について説明した後、以前のモデルに基づいて構築されたいくつかの異なる構造について説明します。

一般的な構造

x '=D(B(E(x)))

  このうち E はエンコーダで、入力画像ブロックをエンコードします。B は 2 値化関数です。D は、B によって生成されたバイナリを入力として受け取り、画像パッチを再構築するデコーダ関数です。x は元の画像、x ' は圧縮および再構成された画像です。これら 3 つのコンポーネントが合わさって、すべての圧縮ネットワークの基本的な構成要素であるオートエンコーダーを形成します。

画像圧縮アーキテクチャ

  著者らはこのセクションで、デコーダが追加情報を取得する際の再構成における残差を最小限に抑えることを目的として、残差に基づいて構築されたアーキテクチャを提案します。
  残留入力に基づく画像圧縮ネットワーク フレームワーク:

Ft (rt-1 )=Dt (B(Et (rt-1 )))

   r は残差入力であり、下付き文字は反復の時点を示します。
  LSTMに基づいた残差アーキテクチャとLSTMに基づいていない残差アーキテクチャも提案された。

LSTMに基づいていないアーキテクチャ

  LSTM 構造に基づいていないモデルの場合、F にはメモリがなく、各ステップの残差は前のステップの残差結果のみに基づいて計算されるため、画像ブロック全体の再構成はすべての値の合計を加算することによって得られます。残差、例えば、後述する順方向全結合残差エンコーダおよび順方向畳み込み/逆畳み込み残差エ​​ンコーダなど。
  各ステップの残差計算式は次のとおりです。

rt =Ft (rt-1 )-rt-1
LSTMベースのアーキテクチャ

  LSTM 構造に基づくモデルの場合、F にはメモリがあり、各ステップの残差は元の画像に基づいて直接計算されるため、各ステップの出力は LSTM ベースの圧縮ネットワークなどの元の画像を予測し、 LSTM ベースの畳み込み/逆畳み込み圧縮ネットワーク
  の各ステップの残差計算式は

rt = Ft (rt−1) − r0

  上記 2 つの方法の圧縮ネットワークは次のようにトレーニングされます。ここで、N はネットワーク内のオートエンコーダーの総数です。
ここに画像の説明を挿入します

2値化表現エンコーディング

著者は、バイナリ化には 3 つの利点があると提案しています:
  ビット ベクトルは画像送信用にシリアライズ可能/デシリアライズ可能である
  ネットワーク圧縮率の制御は、ビット ベクトルの制約によってのみ達成されます
  従来のソリューションと比較して、これら 2 つの値化はより効果的な情報を抽出できます (強制的により効果的な情報を知るためのネットワーク)

この記事で引用されている 2 値化方法は、次の 2 つのステップに分かれています。最初のステップでは、全結合層と Tanh 活性化関数を使用して   、次の関数を使用して
  、エンコーダの後に得られた表現を (-1, 1) の区間にマッピングします。
to ( -1, 1) 区間内のコードは集合 {-1, 1} に二値化されます。

ここに画像の説明を挿入します
次のように簡略化できます。

ここに画像の説明を挿入します
したがって、バイナリ エンコーダ全体は次のように表現できます。

ここに画像の説明を挿入します  ここで、W と b はそれぞれ線形全結合層の重みとバイアス、x は前の層の活性化値です。
  画像の圧縮率は、各ステップで生成される表現ビット数 (つまり、W 行列の行数) とネットワーク反復数 (つまり、残差オートエンコーダーの反復数) によって決まります。

モデル 1: LSTM に基づいていない完全接続残差エンコーダ

  この記事では、最初に、最も単純な例は、完全に接続された層でスタックされたエンコーダ E とデコーダ D であると提案しています。

ここに画像の説明を挿入します
  E と D を、積み重ねられた完全に接続されたレイヤーで構成されるように設定します。各全結合層の出力数を定数 (512) に設定し、tanh 非線形活性化関数のみを使用します。
  構造図から、最終画像パッチの再構成がすべてのステージの残差を合計することによって得られることがわかります。

モデル 2: LSTM に基づく残差エンコーダ

  このモデルは、LSTM レイヤーを積み重ねることによって、LSTM ベースのエンコーダー E とデコーダー D を構築します。そして、この記事で使用する LSTM 構造は、2013 年に Grave によって提案された単純な構造です。単純な LSTM 構造は次のとおりです。

ここに画像の説明を挿入します
  上付き文字 l と下付き文字 t は、層 l および時点 t における LSTM 隠れ層の状態を表し、T はアフィン変換を表し、⊙ は 2 つの行列の対応する位置要素の積を表します。このシンプルな LSTM により、各ステップの演算数が削減され、GPU の効率的な実行が保証されます。
  LSTM ベースの圧縮ネットワーク構造は次のとおりです。

ここに画像の説明を挿入します
  この図は、2 つのタイム ステップに展開されたトレーニングに必要な LSTM を示しています。実際のアーキテクチャにはブロックの最初の行のみが含まれ、2 行目 (および後続の再帰) は前のパスからの残差をフィードすることによって機能します。最初の LSTM ブロックが実装されています。 。
  エンコーダは 1 つの全結合層と 2 つの LSTM 層で構成され、デコーダは 2 つの LSTM 層と 1 つの全結合層に加え、元の画像パッチの RGB 値を予測する Tanh 非線形活性化関数で構成されます。オリジナル画像のパッチ。

モデル 3: LSTM に基づいていないコンボリューション/デコンボリューション残差エンコーダー

  この記事では、モデル 1 の全結合残差オートエンコーダーを提案しています。これに基づいて、畳み込み演算を使用してモデル 1 エンコーダーの全結合層を置き換え、デコンボリューション演算を使用してモデル 1 デコーダーの全結合層を置き換えます。そして、デコードされた表現を 3 つの 1 × 1 畳み込みを通じて 3 チャネルの RGB 値に変換します。LSTM に基づいていない畳み込み/逆畳み込み残差エ​​ンコーダの結果は次のとおりです。

ここに画像の説明を挿入します
  ここでも、モデル 1 と同様に、画像パッチの再構成は、すべてのステージの残差を合計することによって取得されます。

モデル 4: LSTM ベースのコンボリューション/デコンボリューション残差エンコーダー

  最後のモデルのエンコーダーは、モデル 3 のエンコーダーの 2 番目と 3 番目の畳み込みを LSTM 畳み込みに置き換え、デコーダーの 2 番目と 3 番目のデコンボリューションは LSTM デコンボリューションに置き換えます。つまり、モデル 2 のアフィン変換 T をコンボリューション プラスに置き換えます。バイアス。
  LSTM 畳み込み演算式は次のとおりです。

ここに画像の説明を挿入します
  LSTM デコンボリューション演算式は次のとおりです。

ここに画像の説明を挿入します添え字 c と d を使用して、畳み込み演算と逆畳み込み演算に関連付けられた重みを区別します。

実験と分析

電車

  この記事では、Adam アルゴリズムを使用し、トレーニングにさまざまな学習率 {0.1、0.3、0.5、0.8、1} をそれぞれ使用し、ブロック ピクセル数と反復ステップの合計数で標準化された L2 損失に従って、損失関数は 8 ~ 16 ビットのコーディング ステップを使用します。 テストの数。

評価プロトコルと評価基準

  この記事では、PSNR は L2 損失を使用するモデルに偏っているため、PSNR を評価基準として使用すべきではないと強調しています。この記事で提案されているモデルは JPEG アルゴリズムに対して不公平です。そのため、この記事では PSNR を放棄し、代わりに SSIM (構造類似性指数) を使用しています。 )。この記事では、32 32 枚の画像を 8 8 の異なるパッチに分割し、異なるパッチと異なるカラー チャネルの SSIM を計算し、最終的なスコアはすべてのパッチとチャネルの平均 SSIM によって得られます。結果を分析する場合、スコアが高いほど画像再構成の品質が優れていることを示し、1.0 は完全な再構成を示します。
  構造類似性 (SSIM) は、2 つの画像間の類似性の尺度です。この指標は、テキサス大学オースティン校の画像およびビデオ工学研究所によって最初に提案されました。2 つの画像 x と y が与えられると、2 つの画像の構造的類似性は次のようにわかります。

ここに画像の説明を挿入します
2 つの画像がまったく同じである場合、SSIM の値は 1 に等しくなります。

結果と分析

  記事内の各ネットワークの評価結果と、標準的な画像圧縮アルゴリズム(JPEG、JPEG2000、WebP)との比較結果を次の表に示します。

ここに画像の説明を挿入します
  完全に接続された LSTM モデルのパフォーマンスは JPEG に匹敵し、LSTM ベースのコンボリューション/デコンボリューション モデルは SSIM インジケーターの点で JPEG を上回ります。

ここに画像の説明を挿入します
参考:Reflect2022

おすすめ

転載: blog.csdn.net/officewords/article/details/130273728