オーディオとビデオの入門知識 --- 関連用語、用語、概念

オーディオおよびビデオ関連の名詞、用語、概念

1. フレームレート

1 秒あたりの GPU 処理フィールドを更新できる回数を示す、1 秒あたりのフレーム数を表示します。フレームレートが高いと、よりスムーズでリアルになります。一般的には、30fps が許容されます。注: フレーム レートが画面のリフレッシュ レートを超えると、グラフィック プロセッサの電力が浪費されるだけです。画面をそれほど速く更新できない場合、画面のリフレッシュ レートを超えるフレーム レートが無駄になるためです。

2. リフレッシュレート

1秒あたりに画面が更新される回数を指します。リフレッシュレートは垂直リフレッシュレートと水平リフレッシュレートに分けられ、一般的には垂直リフレッシュレートを指します。垂直リフレッシュレートとは、1秒間に画面上の画像が再描画される回数、つまり1秒あたりの画面の更新回数を示します。リフレッシュレートが高いほど、画像が安定し、より自然で鮮明な画像表示が得られ、目への影響が少なくなります。逆にリフレッシュレートが低いと、映像のちらつきやカクつきが大きくなり、目が疲れやすくなります。一般に、リフレッシュ レートが 80Hz を超えると、画像のちらつきやジッターを完全に排除できます。

3. 解決策

ビデオ解像度とは、モニターなどのビデオ画像製品によって形成される画像のサイズまたは寸法を指します。

4. エンコード形式

エンコードの目的は、冗長データを圧縮することです。

ビデオエンコード方式

画像

ビデオ エンコードの機能は、ビデオ ピクセル データ (RGB、YUV など) をビデオ コード ストリームに圧縮して、ビデオ データの量を削減することです。

名前 立ち上げ代理店 打ち上げ時間 現在の使用分野
H.264 MPEG/ITU-T 2003年 各分野
MPEG4 MPEG 2001年 暖かくも熱くもない
MPEG2 MPEG 1994年 デジタルテレビ
VP9 グーグル 2013年 開発中
VP8 グーグル 2008年 人気がない
VC-1 マイクロソフト社 2006年 マイクロソフトプラットフォーム
HEVC(H.265) MPEG/ITU-T 2013年

音声エンコード方式

オーディオ データを伝送する最も一般的に使用される方法はパルス コード変調、つまり PCM です。PCM の取得手順は、アナログ信号 -> サンプリング -> 量子化 -> エンコード -> デジタル信号です。

ここに画像の説明を挿入

オーディオ コーディングの機能は、オーディオ サンプル データ (PCM など) をオーディオ コード ストリームに圧縮して、オーディオ データの量を削減することです。

名前 立ち上げ代理店 打ち上げ時間 現在の使用分野
AAC MPEG 1997年 さまざまな分野(新規)
MP3 MPEG 1993年 さまざまな分野(旧)
WMV マイクロソフト社 1999年 マイクロソフトプラットフォーム
AC-3 ドルビー株式会社 1992年 映画

ハードデコードとソフトデコード
ソフトデコードとは、CPU の演算能力を利用してデコードすることを指し、通常、CPU の性能が高くないとデコード速度が遅くなり、携帯電話が発熱する場合がありますが、統一されたアルゴリズムを使用しているため、互換性が非常に優れています。
ハード デコードとは、デコードを高速化するための特別なデコード チップの使用を指します。通常、ハード デコードのデコード速度ははるかに速くなりますが、ハード デコードはさまざまなメーカーによって実装されているため、品質が低下します。不均一で非常に現れやすいです。

5. パッケージ形式

パッケージング形式 (コンテナ) は、エンコードおよび圧縮されたビデオ トラックとオーディオ トラックを特定の形式に従ってファイルに保存することです。つまり、単なるシェル、またはビデオ トラックとオーディオを保存するためのフォルダーとして理解できます。トラック。

ビデオファイル形式 ビデオカプセル化フォーマット
.avi AVI(オーディオビデオインターリーブド)
.wmv、 .asf WMV(Windows Media ビデオ)
.mpg、.mpeg、.vob、.dat、.3gp、.mp4 MPEG(動画専門家グループ)
.mkv マトロスカ
.rm、.rmvb リアルビデオ
.mov QuickTime ファイル形式
.flv フラッシュビデオ

ビデオカプセル化フォーマット

画像

6. ビットレート

ビットレートとはビットレートのことで、ビットレートとは連続メディア(圧縮された音声や動画など)を単位時間あたりに再生する際に使用するビット数のことで、単位はbps(ビット・パー・セカンド)になります。ビット レートが高くなるほど、より多くの帯域幅が消費され、ビットは 0 または 1 になります。ビット レート = サンプリング レート * サンプリング ビット数 * チャネル数。

7. 画質とビットレート

画質はビットレート(ビットレート)とエンコードアルゴリズムに関係します。

8.ビデオフレーム

ビデオ フレームには、I、P、および B フレームが含まれます。
I フレーム: 完全な画像を含むキー フレームを表します。
P フレーム: 差分フレーム、つまり現在のフレームと前のキー フレーム (または P フレーム) の差分を示します。デコード時には、以前にキャッシュされたピクチャとこのフレームで定義された差分を重ね合わせて、最終的なピクチャを生成する必要があります。P フレームには完全な画像データはなく、前のフレームの画像と異なるデータのみが含まれます。
Bフレーム:このフレームと前後のフレームとの差分を記録する双方向差分フレームを示します。B フレームをデコードするには、以前にキャッシュされたピクチャを取得するだけでなく、デコードされたピクチャを取得し、最終的に前後のピクチャのデータとこのフレームのデータを重ね合わせて最終的なピクチャを取得する必要があります。

9. タイムスタンプ

[9.1] タイムスタンプ単位

タイムスタンプはリアルタイムではなくサンプル数です。たとえば、タイムスタンプが 160 の場合、160 秒または 160 ミリ秒とはみなされません。160 サンプルである必要があります。リアルタイムを変換するには、次のことを知る必要があります。サンプリング レート (8000 など) は 1 秒かかることを意味します。これを 8000 の 1 つに分けます。160 サンプルにかかる時間を知りたい場合は、160 * (1/8000)、つまり 20 で十分です。ミリ秒。

[9.2] タイムスタンプの増分

つまり、画像のあるフレームと画像の別のフレームの間のタイムスタンプの差、または音声のあるフレームと音声のあるフレームの間のタイムスタンプの差です。タイムスタンプの増分は、実際のサンプル数ではなく、サンプル数の差です。サンプリング レートはリアルタイムに変換できます。
ビデオの場合、フレーム レートは 25、サンプリング レート 90000 の場合、1 フレームが占めるサンプル数は 90000/25 または 3600 になります。 、各フレーム画像のタイムスタンプの増分が 3600 であることを示し、実際の時間に換算すると、3600 * (1/90000) = 0.04 秒 = 40 ミリ秒です。AAC オーディオの場合、1 フレームに 1024 個のサンプルがあり、
サンプリング周波数が 44 kHz の場合、1 フレームの再生時間は 1024 * (1/44100) = 0.0232 秒 = 23.22 ミリ秒になります。

[9.3] 同期方法

プレーヤーは、システム クロックをローカルで確立する必要があります。これは通常、CPU 時間に基づいて計算されます。再生が開始されるとき、クロック時間は 0 であり、タイムスタンプによってフレームがデコードされてレンダリングされる瞬間が決まります。再生が開始されると、クロック時間が増加します
。プレーヤーはシステム クロックを使用して現在のビデオとオーディオのタイムスタンプを比較します。オーディオとビデオのタイムスタンプが現在のシステム クロックより小さい場合は、デコードして再生する必要があります。再生を正確に実行するには、エンコーダが正確なタイムスタンプを与える必要があります
。同時に、プレーヤーには正確なシステム クロックが必要です。データ フローは、再生中にタイムスタンプとシステム クロックに基づいてのみ制御できるためです。タイムスタンプに応じて、データ ブロックに異なる処理方法を採用する必要があります。実際、エンコーダであろうとローカル再生であろうと、デバイスはあまり正確ではありません。累積誤差の問題を解決するには、一般に次のことが必要です。このエラーを排除するための再生側のフィードバック メカニズム、同期は動的プロセスであり、待機して追いつくプロセスです。

【9.4】PTSとDTS

DTS (デコード タイム スタンプ) は、圧縮フレームのデコード時間を示すデコード タイム スタンプです。タイム スタンプの意味は、プレーヤーにこのフレームのデータをいつデコードするかを指示することです。PTS (プレゼンテーション タイム スタンプ) は、表示タイム スタンプです。 、圧縮
フレームを示します。デコード後に取得された元のフレームの表示時刻。このタイムスタンプは、このフレームのデータをいつ表示するかをプレーヤーに伝えるために使用されます。

オーディオでは DTS と PTS は同じですが、ビデオでは B フレームは双方向予測が必要であり、B フレームはその前後のフレームに依存するため、B フレームを含むビデオのデコード順序、つまり表示順序は異なります。 DTS は PTS とは異なります。B フレームを含むビデオの場合、DTS と PTS は同じです。

B フレームがない場合、送信されたビデオ フレームが IPPP であると仮定すると、各フレームのタイムスタンプに従ってデコードして表示できます。これは、後続のフレームのタイムスタンプが常に前のタイムスタンプより大きく、タイムスタンプが 1 つだけであるためです。利用される;

Bフレームあり

  1. フレームが実際に表示される順序は、IBBP フレームがデコードされる順序です。

  2. 実際、これらのフレームが到着した後、I フレームと B フレームの特性に従って、キャッシュ内の実際の順序は次のようになります。

  3. 実際のデコード順序: 1 4 2 3;

  4. 最終的なプレゼンテーションの順序は次のとおりです: 1 2 3 4;

  5. つまり、最初に I フレームが再生され、次に最初の B フレーム、2 番目の B フレーム、最後に P フレームが再生されます。I フレームの場合、
    PTS = DTS、P フレームの PTS > DTS、および B フレームの PTS < DTS;

画像

取得順序: イメージ センサーが画像フレームを取得するために元の信号を収集する順序を指します。
エンコード順序: エンコーダーによってエンコードされた画像フレームの順序を指します。ローカル ビデオ ファイルに保存されている画像フレームの順序を指します。ディスクはエンコード順序と同じです; 送信順序: エンコード後の順序を参照します
ストリームのネットワーク送信中の画像フレームの順序を
参照します デコード順序: デコーダが画像フレームをデコードする順序を参照します
表示順序: を参照します画像フレームがディスプレイに表示される順序に、
取得順序は表示順序と同じであり、符号化順序、送信順序、復号化順序も同じです。

10. オーディオフレーム

オーディオ フレームはビデオ フレームほど具体的ではありません。
PCM(エンコードされていない音声データ)の場合、フレームの概念が不要で、サンプリングレートやサンプリング精度に合わせて再生できます。
AMR フレームは 20ms ごとにフレームと規定されており、各フレームは独立しています。
MP3の音声データのフレーム数はファイルサイズとフレーム長によって決まり、各フレームの長さは可変でも固定でもよい。ビット レートによって決定され、各フレームはフレーム ヘッダーとデータ エンティティの 2 つの部分に分割されます。フレームヘッダーにはMP3のビットレート、サンプリングレート、バージョンなどが記録されます。

11.サンプリングレートとサンプリングビット

サンプリング レート、つまりサンプリング周波数、1 秒あたりのオーディオ サンプリング ポイントの数。サンプリング レートは元の音波の周波数の 2 倍より大きく、人間の耳に聞こえる最高周波数は 20kHz です。人間の耳の聴覚要件を満たすには、サンプリングレートは少なくとも40kHz、通常は44.1kHz、より高いものは通常48kHzである必要があります; 注: 人間の可聴周波数範囲 [20Hz、20KHz];
サンプリング
数ビット、つまり振幅量子化では、波形振幅もアナログ信号では連続サンプル値ですが、デジタル信号では信号は一般に不連続であるため、アナログ信号が量子化された後は、近似整数のみを取ることができます。これらの振幅値を記録するために、サンプラーは固定数のビット (通常は 8 ビット、16 ビット、32 ビット) を使用します。 注: 桁数が多いほど、より正確になります
。記録された値が大きくなり、復元度が高くなりますが、ハードディスクの占有容量も多くなります。

12. 量子化精度

アナログ信号を何段階に分割できるかを表し、量子化精度が高いほど、音楽の音圧振幅が原曲に近づきます。量子化精度の単位はビットで、CD規格の量子化精度は16ビット、DVDの量子化精度は24ビットです。

13. チャンネル

チャンネル数は、モノラル (1 チャンネル)、バイノーラル (2 チャンネル)、ステレオ (デフォルトは 2 チャンネル、4 チャンネル) など、さまざまなサウンド (異なるサウンドであることに注意してください) をサポートするスピーカーの数を指します。

録音または再生中に異なる空間位置で収集または再生される相互に独立した音声信号を指します。したがって、チャンネル数は録音時の音源の数、または再生時の対応するスピーカーの数でもあります。
モノラル:スピーカーを 1 つ設置します
。 ステレオ:左右対称の
スピーカーを 2 つ設置します。 4 チャンネル:左前、右前、左後、右後ろにそれぞれスピーカーを配置し、中央で聴衆を囲みます。サブウーファーをもう 1 台追加して、低周波信号の再生処理を強化します。これがいわゆる 4.1 チャンネルです。
5.1 チャンネル: 4.1 チャンネルから派生し、サラウンド チャンネルが 2 つに分割され、左サラウンドと右サラウンドに分割され、中央に位置することでサブウーファー効果が増加します。
7.1チャンネル:5.1チャンネルをベースに、中央左と中央右の2つのスピーカーを追加します。

14. 色空間

RGB は RGB の 3 つの基本色を使用してすべての色を混合することができ、
YUV (YCbCr とも呼ばれる) は明るさと彩度を分離するカラー フォーマットです。

Y: 明るさ、つまりグレー値、明るさ信号を表すことに加えて、より多くの緑チャンネルも含まれます; U:
青チャンネルと明るさの差;
V: 赤チャンネルと明るさの差;
人間の YUV の利点 目は明るさに敏感で、色度には鈍感であるため、人間の目では認識できない UV データの量を削減できるため、見た目に影響を与えることなくビデオのボリュームを削減できます。 UVの解像度を圧縮して感じる、RGBと
YUVの変換式
Y = 0.299R + 0.587G + 0.114B
U = -0.147R - 0.289G + 0.436B
V = 0.615R - 0.515G - 0.100B
R = Y + 1.14V
G = Y - 0.39U - 0.58V
B = Y + 2.03U

ビデオファイルの再生プロセスの概略図

画像

おすすめ

転載: blog.csdn.net/qq_41290252/article/details/124706089