注記: 新世代のビデオ圧縮符号化規格-h.264/AVC

第 1 章の紹介:
    ソース モデル: 1. 波形ベースのコーディング。波形ベースのコーディングは、予測コーディングと変更コーディングを組み合わせたブロックベースのハイブリッド コーディング方式を使用します。
                      2. コンテンツベースのエンコーディング。mpeg4で採用されている符号化方式は、ブロックベースのハイブリッド符号化方式とコンテンツベースの符号化方式です。
第 2 章: デジタルビデオ
    サンプリング定理: 入力アナログ信号のオンライン周波数が fe の場合、サンプリング パルス us(t) の繰り返し周波数 fs が fc の 2 倍を下回らない限り、離散信号から元のアナログを復元するのに常に十分です。歪みのない信号をサンプリングした後。
PCM: パルス符号変調 - PCM エンコーディング。
私の国で採用されている PAL システムは、カラー TV に対して毎秒 25 フレームを規定しており、米国と日本で採用されている NTSC カラー TV システムは 30 フレームを規定しています。
最も一般的に使用されるテスト基準は、ピーク信号対雑音比 (PSNR) です. 一般的に言えば、PSNR が高いほどビデオ品質が高くなり、逆もまた同様です.  
平均二乗誤差 (MSE)
第 3 章 ビデオ圧縮符号化の基本原理
予測コーディング: 1. イントラ予測コーディング
                  2 フレーム間予測符号化
変換コーディング: 1 KL 変換
                  2 離散コサイン変換 (DCT)
変換コーディングと予測コーディングの比較:変換コーディングの実装はより複雑で、予測コーディングの実現は比較的簡単で、予測コーディングのエラーが広がります。変換コーディングはエラーを拡散せず、その影響は 1 つのブロックに限定されます。 実際には、まず画像に対して動き補償を伴うフレーム間予測符号化を行い、予測残差信号に対してDCT変換を行うハイブリッド符号化方式がよく用いられる
エントロピー コーディング: 統計コーディングとも呼ばれるエントロピー コーディングは、ソースの統計的特性を使用してコード レートを圧縮するコーディングです。動画像符号化で一般的に用いられる可変長符号化(ハフマン符号化)と算術符号化の2種類があります。
第 4 章 ビデオ コーディング標準の概要
2 つの有名な機関: MPEG (動画専門家グループ) と ITU-T (国際電気通信連合)
AVS規格(中国規格)
第5章 H.264/AVCエンコーダーの原理
H.264の基本部分は3つの異なるグレードのアプリケーションをサポート
(1) ベーシックグレード: テレビ会議、テレビ電話、遠隔医療、遠隔教育などの「ビデオ通話」に主に使用されます。
(2) 拡張グレード: 主にビデオ オン デマンドなどのネットワーク ビデオ ストリーミングに使用されます。
(3)メイングレード:主にデジタルテレビ放送、デジタルビデオストレージなどの家電用途に使用されます。
フレーム間予測符号化では、予測値 PRED (P) は、現在のスライスの前に符号化された参照画像に対する動き補償 (MC) によって得られます。参照画像は F`n-1 で表されます。予測精度を向上させて圧縮率を向上させるために、実際の参照画像は、符号化、復号化、再構成、およびフィルタリングされた過去または将来の (実次数を参照) フレームから選択されます。
    予測値 PRED が現在のブロックから減算された後、残差ブロック Dn が生成されます. ブロック変換と量子化の後、量子化された変化係数 X のセットが生成されます. エントロピー符号化の後、復号化に必要ないくつかのヘッダー情報 (予測モード量子化パラメータ、動きベクトルなどは一緒に圧縮されたコード ストリームを形成し、NAL (ネットワーク アダプテーション レイヤー) を介した送信と保存に使用されます。
    エンコーダーには、イメージを再構築する機能が必要です。したがって、残差画像を逆量子化・逆変換した後のD`nを予測値Pに加算してuF`(フィルタ前フレーム)を求める必要がある。符号化と復号化のループで発生するノイズを除去し、参照フレームの画質を向上させて圧縮画像のパフォーマンスを向上させるために、ループ フィルタが設定されます。フィルター処理された出力 F`n は再構成されたイメージであり、参照イメージとして使用できます。
フレームとフィールド
動きの少ない画像や静止画像にはフレーム エンコードを使用し、動きの多い動画にはフィールド エンコードを使用する必要があります。
マクロブロック、スライス: マクロブロックは、16*16 輝度ピクセルと、追加の 8*8Cb および 8*8 カラー ピクセル ブロックで構成されます。
I スライス値には I マクロ スライスが含まれ、P スライスにはフレーム内検出の参照となる P とピクセルが含まれ、他のスライスの復号化されたピクセルはフレーム内予測の参照として使用できません。
Pマクロブロックは、フレーム間予測のための参照画像として以前に符号化された画像を使用し、フレーム内符号化されたマクロブロックはさらにマクロブロックに分割することができる。
B マクロブロックは、双方向参照ピクチャを使用します。
等級と等級
1 基本レベル: I スライスと P スライスを使用してフレーム内およびフレーム間コーディングをサポートし、主にテレビ電話、会議テレビ、無線通信に使用される、梓写真のコンテキストベースの可変長コーディングを使用したエントロピー コーディング (CAVLC) をサポートします。など リアルタイムのビデオ通信。
2 主なグレード: インターレース ビデオをサポートし、B スライス フレーム間符号化と加重予測フレーム間符号化を採用し、CABAC をサポートし、主にデジタル放送 TV とデジタル ビデオ ストレージに使用されます。
3 拡張プロファイル: コード ストリーム (sp と SI) 間の効果的な切り替えをサポートし、ビット エラー パフォーマンス (データ セグメンテーション) を改善しますが、インターレース ビデオと CABAC は認識しません。
エンコードされたデータ形式
1 H.264 ビデオ形式
H.264 は、4:2:0 の連続したインターレース ビデオのエンコードとデコードをサポートします。
H.264 の機能は、ビデオ コーディング レイヤー (VCL、ビデオ コーディング レイヤー) とネットワーク抽象化レイヤー (NAL、Network Abstraction Layer) の 2 つのレイヤーに分けられます。VCL データはエンコード プロセスの出力であり、圧縮およびエンコードされた後のビデオ データ シーケンスを表します。
各 NAL ユニットには、生のバイト シーケンス (RBSP、生のバイト シーケンス ペイロード) と、ビデオ符号化データに対応する一連の NAL ヘッダー情報が含まれます。
H.264 では、最大 15 のパラメータ画像から選択して、最も一致する画像を選択できます。
P スライス内のインター符号化されたマクロブロックとマクロブロック パーティションの予測では、パラメータ画像を表 0 から選択できます。また、B スライス内のインター符号化マクロブロックとマクロブロックとマクロブロック パーティションの予測では、参照画像をテーブル 0 と 1 。
5.3.5 スライスとスライス グループ
1. チップ: 5 種類のコーディング チップ、IPB SP SI があります。
イントラ予測モードの選択と符号化
H.264 は、ラグランジュ レート歪み最適化 (RDO, ) 戦略を採用して、最適なコーディング モードを選択します. 可能なすべてのコーディング モードをトラバースすることにより、最小の歪みコスト モードが最終的に 最適な .
5.5 インター予想
B フィルムの予測には 3 つの方法があります。順方向と逆方向が 1 つずつ、順方向が 2 つ、逆方向が 2 つです。
5.6 SP/SI テクノロジー
SP フレーム符号化の基本原理は P フレームの符号化と同様であり、フレーム間予測の動き補償予測符号化に基づいています. 両者の違いは、SP フレームは異なる参照を使用して同じ画像フレームを再構築できることです.参照フレーム. このポイントを使用して、 SP フレーム I フレームを置き換えることができ、ストリーム間の切り替え、スプライシング、ランダムアクセス、早送りと巻き戻し、エラー回復などのアプリケーションで広く使用されています。
SI フレーム: 空間予測フレーム。
ビデオ ストリームの内容が同じでエンコード パラメータが異なる場合は SP フレームを使用する方が効果的であり、ビデオ ストリームの内容が大きく異なる場合は SI フレームを使用する方が効果的です。
5.8 CAVLC : コンテキスト適応可変長エントロピー符号化。
エントロピー符号化は可逆圧縮符号化方式であり、それによって生成されたサルは、復号化後に歪みのないデータを復元できます。エントロピー コーディングは、ランダム プロセスの統計的特性に基づいています。
5.9 CABAC : コンテキスト適応バイナリ算術エントロピーコーディング
結論: 他の主流のエントロピー符号化方法と比較して、CABAC は符号化効率が高く、実際の測定に 28-40DB の品質のビデオ画像のセットを使用すると、CABAC の適用によりビットレートをさらに 9%-14% 増加させることができます。
5.11 デブロッキング フィルタ : DCT 変換、変換係数の量子化プロセスは比較的粗いため、逆量子化によって復元された変換係数にはエラーがあり、画像ブロックの境界で視覚的な不連続が発生します。2 つ目は、動き補償予測によるものです。
5.12 IDR 画像は、一般に I スライスまたは SI スライスです。 IDR ピクチャを受信すると、デコーダはバッファ内のピクチャをただちに「非参照」としてマークし、後続のスライスはピクチャ参照なしでコーディングされます。通常、コード化されたビデオ シーケンスの最初の画像は IDR 画像です。

第6章 H.264の構文と意味

H.264 では、階層構造の最大の違いは、シーケンス レイヤーとイメージ レイヤーが同時に取り消され、シーケンス ヘッダーとイメージ ヘッダーに元々属していた構文要素のほとんどが解放され、2 レベルを形成することです。シーケンスと画像のパラメーター レベル、および残りはシートに配置されます。パラメータ セットは、データの独立した単位です。

パラメータ セットは独立しているため、エンコーダはパラメータ セットの内容を更新する必要があると判断した場合にのみ、新しいパラメータ セットを送信します。複数回再送信するか、特別な技術で保護することができます。

シーケンスの最初のピクチャは IDR ピクチャと呼ばれます (デコードによってピクチャがリフレッシュされる場合でも)。IDR ピクチャは I ピクチャです。H.264 では、デコードの再同期として IDR ピクチャが導入されます。キューはクリアされ、デコードされたすべてのピクチャがデータが出力または破棄され、パラメータが再度検索され、新しいシーケンスが開始されます。このようにして、重大なパケット損失やデータの不整合を引き起こすその他の理由など、前のシーケンスの送信で重大なエラーが発生した場合、ここで生きたまま再同期できます。IDR ピクチャの後のピクチャは、IDR の前のピクチャのデータを参照してデコードすることはありません。

IDR 画像と I 画像の違いは、IDR 画像は I 画像でなければならないことですが、I 画像は必ずしも IDR 画像であるとは限りません。モーション リファレンスについては、I 画像の前の画像を参照してください。

コーディング効率を向上させるため。H.264 は、画像の実際の幅から 1 を引いた値を送信します。

データがメディアに格納されると、開始コードが各 NAL の前に追加されます: 0x000001。

第10章 H.264のスケーラブル符号化

ビデオ コーディングのスケーラビリティには、時間スケーラビリティ、空間スケーラビリティ、および品質スケーラビリティが含まれます。

時間的スケーラビリティ: ビデオ ストリームをさまざまなフレーム レートを表す情報に分解することを指し、基本層は最も低いフレーム レートの情報を保持し、フレーム数が増えるにつれてフレーム レートも高くなり、ユーザーはより一貫したスムーズな視聴が可能になります。写真。

空間スケーラビリティ: ビデオ ストリームをさまざまな解像度を表す情報に分解することを指します。この場合、基本レイヤーは最も低い解像度の情報を保持し、レイヤーの数が増えるにつれて解像度が高くなり、ユーザーはより繊細な画像画面を見ることができます。

品質スケーラビリティ: ピクセル値をさまざまなレベルに分解します. 基本レイヤーでは, 各ピクセルのビットレートは小さく, 画質は粗いです. レイヤーの数が増えるにつれて, 各ピクセルのビットレートも高くなります.よりリッチな画像コンテンツを表示できます。

おすすめ

転載: blog.csdn.net/Doubao93/article/details/118259383