従来の画像圧縮からディープラーニングベースの画像圧縮へ

従来の画像圧縮

簡単な説明

初期の画像圧縮方法では、ハフマン符号化、算術符号化、コンテキスト適応型バイナリ算術符号化など、エントロピー符号化を直接使用して画像の符号化冗長性を削減して圧縮を実現していました。
1960年代後半に、画像を空間領域から周波数領域に変換し、周波数領域で符号化する画像変換による圧縮方式が提案されました。変換符号化で使用される変換手法には、主にフーリエ変換、アダマール変換、離散コサイン変換(離散コサイン変換、DCT)があります。

エントロピー符号化および変換技術を通じてデータの冗長性を除去することに加えて、その後、画像の空間的冗長性および心理視覚的冗長性を削減するための予測および量子化技術が提案されている。最も一般的な画像圧縮方式である JPEG は、画像圧縮方式として実績があり、圧縮率や画像の忠実度を広範囲に調整できること、用途に応じて選択できること、実装の複雑さが少ないことなどの利点があります。圧縮と復元は適度であり、ハードウェアのコストも高くありません。もう 1 つの有名な画像圧縮方式である JPEG 2000 は、JPEG 圧縮方式を改良したもので、低ビット レートの条件では JPEG 2000 に比べて明らかな利点が得られますが、高ビット レートの条件では同等のパフォーマンスしか達成できません。HEVC や VVC などの最新のビデオ コーデックは、イントラ コーディングにイントラ予測とループ フィルターを使用します。これら 2 つのコンポーネントは、空間的冗長性をさらに削減し、再構成されたフレームの品質を向上させるために、画像圧縮方式 BPG でも使用されます。

初期の圧縮方式はエントロピー符号化や変換符号化によって直接圧縮を行っており、エントロピー符号化と変換符号化は画像圧縮において欠かせないものとされてきました。従来の画像圧縮方法は、変換、量子化、エントロピー コーディングといういくつかの基本モジュールで構成されています。適切に設計された変換コーディングは、画像信号をコンパクトで相関のない係数に変換し、量子化を通じて心理視覚的冗長性を排除し、エントロピー コーディングを容易にします。エントロピーコーディングを通じて送信または保存されるコードストリームに変換されます。従来の画像圧縮方式には主に JPEG、JPEG2000、BPG などがありますが、次にそれらとその改良点をそれぞれ整理していきます。

JPEG

JPEGエンコード処理
JPEG は最も一般的な画像形式です. JPEG 圧縮規格の圧縮プロセスは図に示すとおりです. 4 つのステップに分かれています. 最初にデータの前処理を実行し, 画像を RGB カラー モードから YUV カラー モードに変更します. RGB と YUV の間コーデック間の YUV 変換はコーデックには含まれていませんが、必要に応じてエンコード前とデコード後にアプリケーションによって実行されます。変換後はデータのサンプリングを行う必要がありますが、一般的にサンプリング率は2:1:1となりますが、この作業を行うと2行に1行のデータのみが残るため、サンプリング後の画像データ量が圧縮されます。元のサイズの半分にします。2 番目のステップは、サブブロックに対して 2 次元離散コサイン変換 (DCT) を実行することです。DCT 変換は、画像信号を周波数領域で変換し、高周波情報と低周波情報を分離し、高周波情報を圧縮します。 -画像圧縮の目的を達成するための周波数情報。まず、画像を複数の行列に分割する必要があります。次に、各行列に対して DCT 変換を実行します。DC 成分は、隣接する DCT ブロック間の DC 成分を圧縮するために、差動パルス符号変調 (DPCM) とともに使用する必要があります。 DC値。エントロピー符号化プロセスで使用されるコードブックはすべて整数であるため、DCT 変換後の周波数領域係数を量子化する必要があります。これは圧縮の 3 番目のステップであり、量子化操作により周波数領域係数が整数に変換されます。
量子化演算の式は次のとおりです。
ここに画像の説明を挿入します
このうち、X(u,v)は量子化対象の画像行列、Q(u,v)は量子化係数行列、±0.5は丸め用である。視覚的な冗長性を減らすために、JPEG 圧縮規格は特別な量子化係数マトリックスを設計して、低周波情報を十分に保持し、より多くの高周波 (ノイズのような) ディテールを破棄します。 -周波数部分。JPEG 圧縮規格には、輝度データと彩度データをそれぞれ処理するための 2 つの標準量子化係数行列が用意されています。量子化後、周波数領域の係数行列の値のほとんどは 0 になります。これは、その後のエントロピー符号化に非常に役立ちます。次のステップに入る前に、行列の量子化で行うべき最後のステップが 1 つあります。量子化された2次元を変換行列を1次元配列に変換します。DC 係数は、周波数領域の係数行列の左上隅にある最初の係数です。前の係数行列の DC 係数を使用して予測されます。AC 係数については、JPEG は図に示すようにジグザグ スキャン順序を使用します。このスキャン順序は、後続のエンコードを容易にするために、より多くの 0 値を収集できるようにするために使用され、この順序変換後、最終的な周波数領域の係数行列は整数配列になります。
ここに画像の説明を挿入します

4 番目のステップはエントロピー符号化です。ハフマン符号化と適応二値算術符号化が含まれます。どちらの符号化方式にも、対応する符号表があります。符号表は実際の多数の画像テスト結果に基づいて生成されます。符号化するときは、表を直接参照するだけです。

JPEG にも欠点があります。JPEG 圧縮には、圧縮プロセス中に高周波情報が失われることによって必然的にさまざまなアーティファクトが発生します。特に高い圧縮率では、歪みも発生し、エクスペリエンスの品質に大きな影響を与えます。この問題に対しては、従来のフィルターベースの方法などの方法が提案されています。スパースコーディングを適用して圧縮画像を復元するものもあります。これらの方法では、圧縮された入力を使用してより鮮明な画像が生成されることがよくありますが、速度が遅すぎることが多く、結果には追加のアーティファクトが伴うことがよくあります。そのため、圧縮アーティファクトを除去するための深層学習ベースの方法が多数あります。

JPEG2000

ここに画像の説明を挿入します
JPEG 2000 圧縮規格にも 4 つのステップがあります。データの前処理には、画像のブロック化、データ オフセットの正規化、色変換が含まれます。画像は、重複しない多数の長方形のブロックに分割されます。ブロックのサイズは任意です。データ オフセットは、ピクセル値を 0 に対称的にオフセットすることです。正規化は、その後の離散ウェーブレット変換 (離散ウェーブレット変換、DWT) を容易にすることです。成分間の相関を取り除き、圧縮効率を向上させるには、画像に対して対応する成分変換を実行する必要があり、色変換では画像を RGB 色域から YUV 色域に変換します。JPEG 2000 は DWT を使用します。画像が DWT によって変換された後、画像圧縮の目的を達成するために、エントロピー コーディングを容易にするために係数行列も量子化する必要があります。JPEG 2000 は均一なスカラー量子化を使用し、量子化されたデータに対してエントロピーが実行されます。符号化、エントロピー符号化では、最適な打ち切り埋め込みコード ブロック コーディング (最適化された打ち切りを使用した埋め込みブロック コーディング、EBCOT) を使用します。

JPEG 2000 には JPEG に比べて明らかな利点があり、JPEG の改良点として、その圧縮率は JPEG よりも約 30% 高く、関心のある領域の差分圧縮をサポートし、プログレッシブ送信も実行できます。その後、データが徐々に送信されて画質が継続的に向上し、画像がかすんだ状態から鮮明に表示されるようになります。関心領域に基づくコーディングは、画像圧縮の分野において重要な指針となる重要性を持っています。ただし、エンコード処理中に高周波がある程度減衰するため、ある程度のぼやけ歪みが生じるという欠点があります。また、JPEG 2000 は非可逆圧縮と可逆圧縮の両方をサポートしており、JPEG 2000 の可逆圧縮は JPEG よりも高い圧縮率を実現できますが、JPEG 2000 の実装演算はすべて実数領域で行われるため、デコード速度は JPEG より遅くなります。 JPEG は多数あるため、クライアント側とサーバー側の両方で好まれず、精力的なプロモーションが制限されています。

深層学習に基づいた圧縮方式

従来の画像圧縮符号化は急速に発展し、広く実用化されていますが、同時に性能向上のボトルネック時期にも達しています。一方、従来の画像圧縮符号化は、変換モジュール、量子化モジュール、エントロピー符号化モジュールなどの個別モジュールが接続されて構成されており、これらのモジュールは全体を統合して最適化することなく、個別に手動で最適化および設計されています。第二に、従来の符号化品質評価は、一般にいくつかの客観的な性能指標を対象としているが、より主観的な品質指標や意味的品質指標の要件を満たすことが困難であり、画像の深い意味論的情報を取得することができない。ディープ ラーニングとコンピューター ビジョンは常に開発と進歩を続けており、画像の圧縮とコーディングの問題を解決する新しい方法として使用できます。エンドツーエンドの画像圧縮は、画像コーディングのさまざまなモジュールを共同で最適化し、データそのものを語らせることができます。
ディープラーニングに基づく画像圧縮の歴史的発展と現状は、異なるニューラルネットワークに基づく画像圧縮フレームワークの開発と、画像変換モジュール、量子化モジュール、符号化モジュールなどの 2 つのカテゴリに分類できます。深層学習による画像圧縮におけるコアモジュールの開発。

さまざまなニューラルネットワークに基づく画像圧縮フレームワークの開発

深層学習で使用されるさまざまなネットワークに応じて、深層学習に基づく画像圧縮は 3 つの主要なカテゴリに分類できます。1 つ目は畳み込みニューラル ネットワークに基づく画像圧縮、2 つ目はリカレント ニューラル ネットワークに基づく画像圧縮、最後は敵対的生成ネットワークに基づく画像圧縮。以下に個別に紹介します。

CNN

1 つ目は、CNN ネットワークに基づく画像圧縮です。CNN ネットワークは画像処理の分野で広く開発および応用されており、部分知覚と重み共有の特徴を備えており、ネットワークのトレーニングに必要なパラメータの量を削減できます。従来の画像圧縮では、研究者が経験や実験を通じて画像変換、量子化、符号化などのモジュールを手動で最適化しますが、ディープラーニングに基づく画像圧縮は共同で最適化できます。しかし、エンドツーエンドの画像圧縮も難しく、最初に解決しなければならない問題は、画像量子化における微分不可能問題です。従来の画像圧縮では、多くの場合、係数行列を直接導出し、それを丸めることによってデータが量子化されます。

Ballé [1] などの研究者は、均一に分布したノイズを追加することでこの問題を解決しました。ノイズを追加すると、元の量子化結果を変更せずにデータを連続的に微分できるようになります。彼らは CNN ネットワークを使用して画像を処理し、ネットワーク コーディング ネットワークには 3 つの大きな畳み込み層が含まれ、各層は畳み込み層、ダウンサンプリング、および一般化分岐正規化で構成されていました。デコード ネットワークはエンコード ネットワークと似ています。Ballé らの研究で得られた符号化効果は JPEG2000 に近く、CNN ネットワークと画像圧縮に関する先駆的な研究であり、その後の CNN ネットワークに基づく画像圧縮の基礎を築きました。Ballé が提案した CNN ネットワークに基づく画像符号化フレームワークを次の図に示します。このフレームワークに基づいて、Ballé [2] らは、潜在的なデータの合理的な推定を行うために超事前ネットワークを追加しました。画像圧縮におけるコンテキスト情報は、画像のエンコードとデコードにとって非常に重要です。
コンテキスト情報の不足を補うために、Minnen [3] は、潜在的なデータをより正確に推定するコンテキスト ネットワークを導入し、スーパー コーディング ネットワークを改良し、画像のピーク信号ノイズの問題を初めて解決し、比率と画像構造の類似性の点でBPGよりも優れた深層学習圧縮符号化の研究。
画像圧縮の再構成効果を改善するために、Jiang などの研究者 [4] は、新しい CNN ベースの画像圧縮フレームワークを提案しました。 2つのネットワークを均一に最適化することで、符号化側のニューラルネットワークで画像データから有効な情報を抽出し、復号側のニューラルネットワークで画像を再構成することで、画像圧縮によるブロッキング効果を軽減し、より高い効果を得ることができました。 JPEGエンコードよりも。

Toderici によって提案された深層学習フレームワーク:
ここに画像の説明を挿入します

RNN

RNN ベースのネットワークによるエンドツーエンドの画像圧縮コーディング。RNN ネットワークは一定の記憶機能を持ち、処理前後の信号依存性の強い信号の処理に有利であり、RNN ネットワークのニューロンは隣接する層に接続されるだけでなく、自身自身にも接続されます。Toderici[5]らによって提案されたRNNネットワークに基づく画像圧縮方式。この方法は、反復 RNN ネットワークを使用してコード レートを制御し、残差ネットワークを使用して画像の再構成品質を向上させます (具体的には、コーディング ネットワーク、二値化ネットワーク、および復号ネットワークが含まれます)。再構成効果は JPEG2000 と同様です。この取り組みにより、その後の RNN ネットワークに基づく画像圧縮への道が開かれました。その後の研究者は、効率的なエントロピー符号化モジュール [6] とコード レート割り当てモジュール [7] を導入することにより、RNN ネットワークに基づく画像圧縮をさらに開発および拡張しました。一部のネットワークで達成された画像再構成効果はBPGを超えています。

Toderici によって提案された深層学習フレームワーク:
ここに画像の説明を挿入します

しかし

GAN ネットワークの台頭により、深層学習に基づいた画像圧縮の研究も促進されており、GAN ネットワークはジェネレーターを通じて画像を生成し、生成された画像が本物かどうかを識別器で判断します。Rippel[8] は GAN ネットワークに基づく画像圧縮を提案しました。この方式の特徴は、敵対的生成ネットワークを用いて低ビットレートで高品質なネットワークを生成するという目的を達成することであり、画像圧縮に敵対的生成ネットワークを用いた初めての研究である。このフレームワークは、画像圧縮パフォーマンスと圧縮時間の点で優れた結果を達成します。

深層学習に基づくエンドツーエンド画像圧縮コアモジュールの開発

エンドツーエンドの画像圧縮フレームワークは、画像圧縮プロセスを共同最適化のためのネットワーク全体として扱います。Ballé 氏と Toderici 氏らは、それぞれ CNN ネットワークと RNN ネットワークを使用してエンドツーエンドの画像圧縮作業を完了しましたが、Rippel が使用する GAN ネットワークもエンドツーエンドの画像圧縮作業です。したがって、ディープラーニングに基づくエンドツーエンドの画像圧縮がより一般的に使用されるソリューションであり、以下ではエンドツーエンドの画像圧縮に関する研究者らの研究について詳しく紹介します。

従来の画像圧縮プロセスでは、画像が前処理された後、変換モジュール、量子化モジュール、符号化モジュールなどのさまざまなモジュールを通過します。深層学習に基づく対応する画像圧縮には、変換モジュール、量子化モジュール、符号化モジュールなどもあります。

変換モジュール開発

従来の画像圧縮における変換ステップでは、画像空間領域データを周波数領域または他の空間領域に変換して、画像データのエネルギー収束の効果を達成し、重要でないデータを破棄し、データ量を圧縮します。深層学習では、カスケード畳み込み層を使用して画像を変換します。Ballé [9] らは、最初の畳み込み、次にダウンサンプリング、最後に GDN 変換の実行という 3 つのステップで構成される GDN に基づく非線形変換を提案しました。この方法では、従来の圧縮方法と同じ画像圧縮エラーで使用されるコードワードの数が減少します。画像の超解像度のアイデアに触発されて、Theis らは、非可逆画像オートエンコーダ フレームワークを提案しました。このフレームワークは、通常の畳み込みニューラル ネットワークを使用して画像変換を実現します。まず、画像データが前処理されます。その後、画像が畳み込まれます。そしてダウンサンプリングされ、最後に残差ブロックを使用して処理されます。画像から特徴情報をより効果的に抽出し、データ量を削減するために、Zhao [11] らは画像の特徴を抽出する FDNN ネットワークを提案しました。FDNN ネットワークは 8 つの畳み込み層を使用して画像データを処理します。受容野を増やすために、最初の層と最後の層で使用される畳み込みカーネル サイズは 9 であり、中間に ReLU 層が点在して画像データの非線形性を高めています。通信網。つまり、画像圧縮における変換部分は、従来の数学的空間演算変換からカスケードネットワーク畳み込みに変わり、最終的には散在するデータから有効な特徴情報を抽出するという目的を達成します。

定量的なモジュール開発

従来の画像圧縮符号化では、変換されたデータが量子化されます。ディープラーニングによるEnd-to-End画像圧縮においては、量子化に伴う量子化非微分性の問題が解決すべき重要な課題となっている。Toderici[12] らによって提案された解決策は 2 値量子化であり、この 2 値量子化手法では、まず連続区間 [−1,1] で一定量の出力を生成し、次に実数値式を入力として使用して -1 を取得します。 、1 ディスクリート出力。バイナリ量子化は直接シリアル化できるため、情報送信に有利です。ビット許容値を制限することで圧縮率を制御でき、ネットワークに画像の効果的な表現を学習させることができます。バイナリ量子化におけるゼロ勾配問題を解決するために、Rippel[8] et al. と Li[13] et al. はバックプロパゲーションにサロゲート関数を導入しましたが、このサロゲート関数は微分可能です。Ballé [9] らは、量子化プロセスを実現し、大域的な微分可能性を確保するために、元の丸め関数を置き換えるために加法的な均一ノイズを追加することを提案しました。整数量子化の画像再構成品質が高くないという問題を解決するために、Agustsson [14] は、与えられたスカラーまたはベクトルのソフト割り当てに従って必要な量子化レベルに量子化するベクトル量子化方法を提案しました。実験により、ベクトル量子化は従来のスカラー量子化よりも優れたパフォーマンス機能を備えていることが証明されました。

コーディングモジュール開発

従来の画像圧縮符号化では、量子化データの冗長性を除去するために算術符号化やハフマン符号化が一般的に行われていました。Ballé [1] らは、エンドツーエンドの画像圧縮において、量子化された潜在表現データに必要なビットを近似するエントロピー モデルを構築し、その後のエントロピー モデルの開発の基礎を築くことを提案しました。同時に、Theis [10] らはガウス モデルを近似推定値として使用し、深層学習に基づくエンドツーエンドの画像圧縮のパフォーマンスを効果的に向上させました。潜在表現の空間依存性をさらに減らすために、Ballé [2] らは、圧縮された超事前情報を補助として使用し、同時にいくつかの超事前ネットワークを以前のモデルに追加し続けました。生成されたコード ストリームにビット情報を付加し、補助情報を表し、より正確なモデルを取得し、エントロピー コーディングを強化します。これに基づいて、Minnen[3] などの研究者は、超優先モデルを拡張し、0 平均ガウス モデルを非 0 平均ガウス モデルに改良し、コンテキスト情報の不足を補うコンテキスト モジュールを追加しました。コンテキスト モジュールを備えたハイパー プライオリティ ネットワーク フレームワークの下での画像圧縮効果と組み合わせると、ピーク信号対ノイズ比およびマルチスケール構造の類似性の点で BPG よりも優れています。Lee [15] は、ビット消費コンテキストとビットフリーコンテキストの 2 種類のコンテキスト ネットワークを利用し、必要に応じて追加ビットを使用するかどうかを選択するコンテキスト ネットワークを提案しました。モデル。Hu[16]らは、超優先ネットワークとコンテキストモデルに存在する長距離依存問題を解決するために、元の超優先ネットワークに別のネットワークを追加して解析する多層超優先モデルを提案した。隠れ層データより詳細な分析と変換を実行して、画像の空間的冗長性を完全に抽出します。Qian [17] は、以前の研究はローカル情報の冗長性に焦点を当てており、グローバル情報の冗長性にはあまり注意を払っていないと考え、エントロピー モデルにグローバルに関連する検索モジュールを追加し、エントロピー モデルとコンテキスト モジュールを徐々に組み合わせました。グローバル検索モジュールを使用します。Bai[18] et al. 原文 非可逆超優先画像圧縮フレームワークに基づいて、新しい残差学習ネットワークが構築され、ほぼ可逆圧縮画像を構築することを学習し、可逆圧縮下で最高のパフォーマンスを達成すると同時に、高ビットレートでの非可逆圧縮と比較して、それも劣りません。畳み込みニューラル ネットワークの使用に加えて、Transformer に基づくエントロピー モデルもあります。Qian [17] らは、ネットワークによる特徴の確率分布の予測をより正確にするために、Top-k フィルタリング メカニズムと相対位置モジュールを提案しました。要約すると、深層学習に基づく画像圧縮符号化のエントロピー符号化部分は、主に、可能な限り正確な推定を行うために潜在的な表現を推定およびモデル化する方法を使用して完了します。

適応型コードレート割り当てモジュールの開発

上記の 3 つのモジュールに加えて、深層学習に基づくエンドツーエンド画像圧縮フレームワークでは、画像の複雑な構造や地域差を考慮して、画像に対する適応的なコード レート割り当ても実行されます。Li [19]らは、局所的に適応可能なコードレート割り当てマスクを生成できる、インポータンスマスクネットワークと呼ばれるコンテンツ重み付けコーディングネットワークを提案した。Zhong ら [20] らは、畳み込みニューラル ネットワークに基づく従来の画像圧縮は、すべての特徴チャネルを均等にマッピングするという点で厳密ではないと考えており、チャネルの重要性の学習とコード レートの割り当てを含む可変量子化ネットワークを提案し、重要な部分により多くのビットを割り当てました。チャンネル。Liu [21] らは、非ローカル モジュールを使用して画像の大域的な相関関係を取得し、アテンション メカニズムを組み合わせて画像特徴の重要な情報により多くのビット レートを割り当てます。Liu [22] らは、計算量を効果的に削減する軽量のチャネル アテンション モジュールを設計しました。阿久津ら [23] らは、畳み込み自動符号化と関心領域 (ROI) を組み合わせた画像圧縮フレームワークを提案しており、このフレームワークにおける損失関数は、補助情報に基づいて画像の各領域の品質パラメータを変更します。この方法では、元のフレームワークと比較して 31% 削減され、構造の類似性が 0.97 向上します。Cai [24] らは、マルチスケール表現と ROI マスクを生成できる ROI 符号化ネットワークを構築し、トレーニング効率を向上させるために、ソフトからハードへのトレーニング スキームも開発しました。研究者 Xia [25] らは、画像の前景と背景に異なるエンコーディング スキームを使用して、画像をレイヤーに分解するターゲット セグメンテーション ネットワークを設計しました。この方法は、あらゆる形状のオブジェクトを効果的に処理でき、低ビットです。高速画像の圧縮下での主観的なパフォーマンスの向上。

参考文献

[1]BalléJ、Laparra V、Simoncelli E P.エンドツーエンドで最適化された画像圧縮[J].arXiv e-prints、2016、arXiv:1611.01704。
[2]BalléJ、Minnen D、Singh S、他。スケール ハイパープリアによる変分画像圧縮[C]。学習表現に関する国際会議、バンクーバー、2018、arXiv:1802.01436。
[3]Minnen D、BalléJ、Toderici G.学習された画像圧縮のための共同自己回帰および階層的事前分布[C].第 32 回神経情報処理システム国際会議議事録、レッドフック、ニューヨーク、米国、2018 年、10794–10803 。
[4]Jiang F、Tao W、Liu S、他、畳み込みニューラル ネットワークに基づくエンドツーエンド圧縮フレームワーク[J]、IEEE Transactions on Circuits and Systems for Video Technology、2018、28(10):3007 -3018。
[5]Toderici G、Vincent D、Johnston N、他、リカレント ニューラル ネットワークによるフル解像度画像圧縮[C]、2017 IEEE Con​​ference on Computer Vision and Pattern Recognition、ロス アラミトス、カリフォルニア、米国、2017、5435-5443。
[6]Minnen D、Toderici G、Covell M、他、タイル型ディープ ネットワークを使用した空間適応型画像圧縮[C]、2017 IEEE International Conference on Image Processing、2017、2796-2800。
[7]Johnston N、Vincent D、Minnen D、ほか。リカレント ネットワーク向けのプライミングおよび空間適応ビット レートによる非可逆画像圧縮の改善[C].2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition、2018、4385-4393 。
[8]Rippel O、Bourdev L.リアルタイム適応画像圧縮[C].第 34 回機械学習国際会議議事録、2017 年、2922-2930。
[9]Ballé J、Laparra V、Simoncelli E P.知覚品質のための非線形変換コードのエンドツーエンドの最適化[C].2016 Picturecoding Symposium、ニュルンベルク、ドイツ、2016、1-5。
[10]Theis L、Shi W、Cunningham A、他、圧縮オートエンコーダを使用した非可逆画像圧縮[J].arXiv e-prints、2017、arXiv:1703.00395。
[11]Zhao L、Bai H、Wang A、他。画像を圧縮するためのディープ畳み込みニューラル ネットワークに基づく仮想 vodec の学習[J].arXiv e-prints、2017、arXiv:1712.05969。
[12] Toderici G、O'Malley SM、Hwang SJ、他、リカレント ニューラル ネットワークを使用した可変レート画像圧縮 [J].arXiv e-prints、2015、arXiv:1511.06085。
[13]Li M、Zuo W、Gu S、他、コンテンツ重み付け画像圧縮のための畳み込みネットワークの学習
[J].arXiv e-prints、2017、arXiv:1703.10553。
[14]Agustsson E、Mentzer F、Tschannen M、他。エンドツーエンド学習圧縮表現のためのソフトからハードへのベクトル量子化[C]。第 31 回神経情報処理システムに関する国際会議の議事録、レッドフック、ニューヨーク州、米国、2017、1141–1151。
[15] Lee J、Cho S、Beack S K. エンドツーエンドで最適化された画像圧縮のためのコンテキスト適応エントロピー モデル
[J].arXiv プレプリント arXiv:1809.10452、2018。
[16]Hu Y、Yang W、Liu J.学習された画像圧縮のための粗密へのハイパー事前モデリング[J]。
人工知能に関する AAAI 会議議事録、2020、34(7):11013-11020。
[17]Qian Y、Tan Z、Sun X、他。画像圧縮のグローバル リファレンスを使用した正確なエントロピー モデルの学習
[J].arXiv e-prints、2020、arXiv:2010.08321。

[18]Bai Y、Liu X、Zuo W、他。結合非可逆画像と残差圧縮によるスケーラブルなℓ∞制約付きのほぼ可逆画像圧縮の学習[C].2021 コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議、ナッシュビル、テネシー州、米国、2021、11941-11950。
[19]Li M、Zuo W、Gu S、他。コンテンツ重み付け深層画像圧縮の学習[J]。
パターン分析とマシン インテリジェンスに関する IEEE トランザクション、2021、43(10):3446-3461。
[20]Zhong Z、Akutsu H、Aizawa K.深層画像
圧縮のためのチャネルレベル可変量子化ネットワーク[J].arXiv e-prints、2020。
[21]Liu H、Chen T、Guo P、他、非局所注意最適化深層画像圧縮[J].arXiv
e-prints、2019、arXiv:1904.09757。
[22]Liu J、Lu G、Hu Z、他。効率的なディープ画像圧縮のための統合されたエンドツーエンド フレームワーク[J]。
arXiv 電子プリント、2020、arXiv:2002.03370。
[23]阿久津博、鳴子徹、エンドツーエンドの深層ロイ画像圧縮[J]、電子情報通信学会論文誌
、2020、E103.D(5):1031-1038。
[24]Cai C、Chen L、Zhang X、他、エンドツーエンドで最適化された ROI 画像圧縮 [J]、IEEE Transactions
on Image Processing、2020、29:3442-3457。
[25]Xia Q、Liu H、Ma Z. オブジェクトベースの画像コーディング: 学習主導の再考[C].2020 IEEE International
Conference on Multimedia and Expo、2020、1-6。

おすすめ

転載: blog.csdn.net/officewords/article/details/130231317