インスタント メッセージングのオーディオとビデオの開発コーディング標準を共有する

インスタント メッセージング アプリケーションのリアルタイム オーディオおよびビデオ テクノロジは、IM の開発における最後の高い壁です。その理由は、リアルタイム オーディオおよびビデオ技術 = オーディオおよびビデオ処理技術 + ネットワーク伝送技術の水平技術アプリケーションの集合体であり、公衆インターネットはリアルタイム通信用に設計されていないためです。

 

ビデオ通信プロセスは、ビデオとオーディオのリアルタイム双方向完全通信プロセスです。このプロセスでは、高精細なビデオ画像を取得するために、もう 1 つの重要なプロセスである音声通信プロセスを無視することがあります。高解像度のビデオ画像を見ている場合、より明確で連続的なオーディオ効果を得ることができません。となると、このプロセスは実は無意味なので、映像以上に重要です。

従来のビデオ会議システムとインスタント メッセージ チャット システムにおけるオーディオ技術の発展は非常に遅く、オーディオ信号のサンプリング周波数、サンプリング精度、およびサンプリング範囲インジケータが大幅に低下し、提供できるオーディオの明瞭さと復元が大幅に改善されました。減衰します。オーディオは、OGG、MP3 などの非リアルタイム圧縮プロトコルの保存と再生に使用される標準と比較して、忠実度が非常に低くなります。このように、ライブサウンドの復元は、ある程度要件を満たすことができません。

現在、G.711、G.722、G.721、G.728 などの音声規格が主に従来のビデオ通信プロセスで使用されており、音声能力は 20Hz-20KHz に達することがあります。シーンの環境音を復元する過程での情報では、シーンの状況を真に表現することはできません。したがって、高解像度ビデオ通信のプロセスでは、この問題を解決するための補助的なオーディオ処理方法が必要です。高解像度通信プロセス全体を完璧に近づけます。

現在、世界には多くのオーディオ処理技術の標準があり、次世代のリアルタイム インタラクティブ オーディオ処理には、MPEG-1 Layer 2 または AAC シリーズのオーディオを使用できます。周波数応答範囲は 22KHz に達する必要があるため、人間の聴覚のほぼ全範囲をカバーし、高周波数でそれを超えることさえできます.ライブオーディオを真に自然な方法で復元でき、2 チャンネルのステレオ再生を使用できます。復元することで、映像通信全体の音声がより近くなり、CDレベルの音質に到達します。同時に、リンク帯域幅とコーデック効率に最適な適応を実現します。インスタント メッセージング チャット ソフトウェア アプリの開発は、Wei Keyun の v: weikeyun24 相談を追加できます。

 

以下は、さまざまなオーディオ エンコーディング規格の説明です。

リアルタイム音声通信符号化規格:G.711

タイプ: オーディオ
策定者: ITU-T
必要な帯域幅: 64Kbps
機能: アルゴリズムの複雑さが小さい、一般的な音質
長所: アルゴリズムの複雑さが少ない、圧縮率が小さい (CD の音質 > 400kbps)、コーデックの遅延が最も短い (他の技術と比較して)
短所: 高い占有帯域
幅 備考: G.711 64kb/s パルス符号変調 PCM 1970 年代に CCITT によって発表されました。

リアルタイム音声通信符号化規格:G.721

策定者:ITU-T
必要帯域幅:32Kbps
オーディオ帯域幅:3.4KHZ
特徴:PCMA や PCMU に比べて圧縮率が高く、2:1 の圧縮率を実現できます。
利点: 圧縮率が大きい
欠点: 平均的な音質
備考: サブバンド ADPCM (SB-ADPCM) テクノロジ。G.721 標準は、コード変換システムです。ADPCM 変換技術を使用して、64 kb/s A-law または μ-law PCM レートと 32 kb/s レート間の相互変換を実現します。

リアルタイム音声通信符号化規格:G.722

策定者: ITU-T
必要な帯域幅: 64Kbps
オーディオ幅: 7KHZ
機能: G722 は忠実度の高い音声品質を提供できます
利点: 良好な音質
欠点: 高帯域幅要件
備考: サブバンド ADPCM (SB-ADPCM) テクノロジ

リアルタイム音声通信符号化規格:G.722.1

策定者:ITU-T
必要帯域:32Kbps/24Kbps
音声幅:7KHZ
特徴:G.722コーデックよりもビットレートが低く、圧縮率が高い。目標は、約半分のビットレートで G.722 とほぼ同等の品質を達成することです。
長所: 良好な音質
短所: 高帯域幅の要件
備考: それらのほとんどは現在、ビデオ会議システムで使用されています。

リアルタイム音声通信コーディング規格: G.721 付録 C

策定者: ITU-T
必要な帯域幅: 48Kbps/32Kbps/4Kbps
オーディオ幅: 14KHZ
機能: Polycom の Siren™14 特許取得済みアルゴリズムを採用。これは、以前のブロードバンド オーディオ技術と比較して画期的な利点があり、短時間で拡張された 14 kHz 超広帯域を提供します。 MPEG4 AAC-LD 代替コーデックの半分以下のビット レートでオーディオを再生し、計算能力は 10 分の 1 から 20 分の 1 しか必要としないため、ビデオ品質の向上やインターネット アプリケーションの実行、およびモバイル デバイスのバッテリ寿命のために、より多くのプロセッサ サイクルが必要です。延長することもできます。
利点: CD の音質にほぼ匹敵するクリアな音質により、ビデオ会議などのアプリケーションでのリスナーの疲労を軽減できます。
短所: Polycom の特許技術です。
備考:現在、それらのほとんどはビデオ会議システムで使用されています

リアルタイム音声通信符号化規格:G.723(低ビットレート音声符号化アルゴリズム)

策定者: ITU-T
必要な帯域幅: 5.3Kbps/6.3Kbps
オーディオ幅: 3.4KHZ
特徴: 音声品質は良好に近く、帯域幅要件は低く、効率的な実装、マルチチャネル拡張が容易であり、53coder は次の方法で実現できます。 C5402 の 16kRAM オンチップを使用。ITU-TG723 で要求される音声品質に到達し、パフォーマンスが安定しています。IP電話の音源符号化や高効率音声圧縮ストレージとして利用できます。
利点: コード レートが低く、必要な帯域幅が小さい。ITU-TG723で要求される音声品質を実現し、安定した性能を発揮します。
短所: 平均的な音質
備考: G.723 音声エンコーダは、5.3kbits/s と 6.3kbit/s のエンコード レートを持つマルチメディア通信用のデュアル ビット レート エンコード方式です。G.723 標準は、国際電気通信連合 (ITU) によって策定されたマルチメディア通信標準の不可欠な部分であり、IP 電話などのシステムに適用できます。その中で、5.3kbits/s のコード レート エンコーダーはマルチパルス最尤量子化技術 (MP-MLQ) を採用し、6.3kbits/s のコード レート エンコーダーは代数符号励起線形予測技術を採用しています。

おすすめ

転載: blog.csdn.net/weikeyuncn/article/details/128371765