オーディオおよびビデオ技術開発ウィークリー | 305

週に 1 回、オーディオおよびビデオ技術分野の乾物について概説します。

ニュース寄稿:[email protected]

d47b829cc8bba61ff63cf3574cd988d8.png

偉大な神が学術界に帰還: ヘ・ユーミンがMITへの入社を発表

「FAIR 研究科学者として、私は 2024 年にマサチューセッツ工科大学 (MIT) 電気工学およびコンピューター サイエンス学部の EECS 教員に加わる予定です。」

AI の分野で著名な学者、ResNet の発明者である He Yuming 氏は、最近、学界に戻ることを個人ウェブサイトで発表しました。

3649493fe23d6cb142466814a175c3c7.png

Meta の新しいオープンソース モデル AudioCraft が爆発的に登場! テキストから音楽を自動生成

8月3日、世界的なソーシャル&テクノロジー大手Meta(FacebookやInstagramなどの親会社)は、オープンソースのテキスト生成音楽モデルAudiocraftを発表した。AudiocraftはMusicGen、AudioGen、EnCodecから構成されるハイブリッドモデルであると報告されています。鳥の鳴き声、車のクラクション、足音、またはより複雑な音楽などの背景オーディオをテキストのみを使用して生成できるため、ゲーム開発、ソーシャル ネットワーキング、ビデオ ダビングなどのビジネス シナリオに適しています。

「生成AI」から「生産性」までAmazonのクラウドテクノロジーが注目

Amazon クラウド テクノロジーは、顧客の需要に関する洞察と過去数年間のテクノロジーの蓄積に基づいて、最も簡単な方法でテクノロジーの進歩をあらゆる階層に届けることを期待して、多数の AI 機能を使いやすい製品に統合してきました。このテクノロジーイベントで、Amazon Cloud Technology は 7 つの新しい生成 AI 機能を一度に発表しました。

人間が作成したデータは高価すぎます。開発者は AI 合成データを密かに使用してモデルをトレーニングします

現在、開発者は AI モデルをトレーニングするために AI が生成したデータを密かに使用しています。その理由は、人間が作成したデータは非常に高価すぎるためです。

以前は、ほとんどの AI モデルは人間のデータでトレーニングされていましたが、現在では、ますます多くの企業 (OpenAI、Microsoft、Cohere などの新興企業を含む) がこの AI 生成の「合成データ」を使用しているか、その方法を理解するのに苦労しています。 AIが生成したデータを使用します。

レポート: 数字でトレンドを見て、未来を見る——コンテンツ業界の新たなチャンスを発見する

中国のコンテンツアプリケーションの生態学的カバー範囲の規模は着実に拡大しており、構造変化によりビデオの形式、規模、粘着性の両方が成長を示しており、詳細な情報とコンテンツの消費が増加しており、それが企業レベルでのブランド認知と変革に影響を与えています同時に、AIGC は生産性を変化させ、コンテンツ産業は生態学的に多様化しており、ビューローへの統合とプラットフォームの徹底的な強化により、コンテンツ資産は企業の中核資産の 1 つとなり、コンテンツ運用は必須となっています。

c388fc9f306e3a7d8d8b5b2935090910.png

AIチップはどうやって設計するのか?メタから実践!

機械学習 (ML) はオンライン イベントで広く普及しています。これらのモデルは近年、サイズと複雑さが大幅に増大しており、予測の精度と妥当性の向上に役立っています。しかし同時に、この成長は、これらのモデルを大規模にトレーニングおよび推論するために使用されるハードウェア プラットフォームに重大な課題をもたらします。総所有コスト (TCO) は、データセンターでモデルを運用する際の主な制約の 1 つであり、これらのプラットフォームでは電力が TCO の重要な部分を占めます。その結果、TCO あたりのパフォーマンス (およびワットあたりのパフォーマンス) が、機械学習を対象とするすべてのハードウェア プラットフォームにとって重要な指標になりました。

3人のヒーローが並ぶMCU市場

マイクロコントローラー (Microcontroller Unit、MCU) は、中央処理装置、メモリ、入出力インターフェイス、タイマーなどの機能を統合したマイクロコンピューター チップの一種です。1970 年代の誕生以来、MCU テクノロジーはさまざまな分野で大きな成功を収め、今日のデジタル時代において重要な役割を果たしています。驚くべきことに、小型マイクロコントローラーがプロセッサー市場の 80% 以上を占めています。世界中の半導体企業が MCU 技術の研究開発と生産に参加しており、MCU 市場は多様化と熾烈な競争のパターンを呈しています。

6663fa29698034d2c15a2adfa0235b0c.jpeg

自動運転企業が高精度地図への依存を取り除くとき、運転プロセスにおける SLAM アルゴリズムの重要性は何でしょうか?

この記事は Zhihu Gaozan のいくつかの回答で構成されており、自動運転分野での SLAM アルゴリズムの適用に関心がある読者に役立つことを願っています。

リアルタイム セマンティック RGB-D SLAM は、動的環境の組み込みシステムに実装できますか?

既存のビジュアル SLAM メソッドのほとんどは、静的な世界の仮定に大きく依存しているため、動的な環境では簡単に失敗する可能性があります。この論文では、既知の移動物体と未知の移動物体の両方を検出できる、動的環境におけるリアルタイム セマンティック RGB-D SLAM システムを紹介します。計算コストを削減するために、キーフレームに対してのみセマンティック セグメンテーションを実行して既知の動的オブジェクトを削除し、堅牢なカメラ追跡のために静的マップを保持します。さらに、深度画像をいくつかの領域にクラスタリングし、再投影誤差によって動的領域を識別することにより、未知の移動物体を検出するための効率的な幾何学的モジュールを提案します。

ダイナミックなビジュアル SLAM に関する何億もの考え

動的環境におけるビジュアル SLAM は常に研究の焦点であり、難しさでもありましたが、最近では動的 SLAM に関する論文が少なくなってきており、主な理由は動的 SLAM の枠組みが固まり、それを実現するのが難しいことにあると感じています。大きな革新を起こす。既存のテンプレートは基本的に、ターゲット検出またはセマンティック セグメンテーション ネットワークを使用して動的特徴点を除去し、幾何学的一貫性を使用してさらなる検証を行います。著者も最近ブレークスルーについて考えているので、インスピレーションを得るために、現在の主流のソリューションを詳しく分析する予定です。

68eae9c41bff29a4600afe697966e867.png

F-LIC: FPGA ベースのきめ細かいパイプラインを使用した学習ベースの画像圧縮

最近、学習画像圧縮 (LIC) は、圧縮率と再構成された画像品質の両方の点で顕著な機能を示しています。変分オートエンコーダ フレームワークを採用することにより、LIC は、最新の従来のコーディング標準である VVC の内部予測を超えることができます。エンコードを高速化するために、ほとんどの LIC フレームワークは GPU で浮動小数点演算を使用します。ただし、エンコードとデコードが異なるプラットフォームで実行される場合、異なるハードウェア プラットフォームでの浮動小数点演算結果の不一致によりデコード エラーが発生します。したがって、固定小数点演算を使用する LIC が非常に望ましいです。

このペーパーでは、8 ビット固定小数点量子化 LIC の FPGA 設計について説明します。既存の FPGA アクセラレータとは異なり、この論文では、より高い DSP 効率を達成するためのきめの細かいパイプライン構造を提案します。さらに、ハードウェアのパフォーマンスを向上させるために、カスケード DSP およびゼロスキップ アンラップ機能が開発されました。

CVPR 2023 | スクリーン画像超解像度における B スプライン テクスチャ係数推定

マルチメディア アプリケーションの急速な発展に伴い、スクリーン コンテンツ イメージ (SCI) が人々の日常生活に頻繁に登場するようになりました。しかし、表示デバイスとSCIの間には解像度の不一致が生じることが多く、SCIは自然画像とは大きく異なるエッジが細くシャープな特徴を持っています。ただし、ほとんどの超解像手法は自然画像に適用されます。そこで本論文ではSCIに対する超解像手法を提案する。この論文では、INR を使用して SCI を連続的に表現し、低解像度 (LR) 画像から B スプライン曲線の係数、ノット、膨張パラメータを予測する B スプライン テクスチャ係数推定器 (BTC) を提案します。次に、クエリ点の座標が 2D B スプラインで表される空間に投影され、MLP に供給されます。B スプライン基底関数の正の制約と厳密なサポートを利用して、アンダーシュート/オーバーシュートによって引き起こされる歪みが SCI の不連続部で低減されます。

378f2adf81e594c169d7b65b7af67298.jpeg

Zoom が AV1 を正式にサポートします!

現地時間7月28日のZoomアップデートでは、公式リリースノートの機能強化セクションに「帯域幅の使用量を増やさずに高品質のビデオを提供するために、Zoomは無料のアカウント使用に新しいビデオコーデックを導入している」と記載されている。Windows、macOS、Linux、Android、iOS の Zoom はすべて、「次世代エンコーダー」である AV1 をサポートするようになりました。

https://support.zoom.us/hc/en-us/articles/17763841523213-Release-notes-for-April-24-2023   

BILIVVC エンコーダは MSU 国際ビデオ エンコーダ コンテストでデビューし、多くの良い結果を獲得しました

BILIVVC は、1fps および 5fps ギアの YUV-SSIM インデックスで 3 位を獲得しました。BILIVVC エンコーダのパフォーマンスは、多くの参加エンコーダの中で最高にランクされます。

H266 コアをベースにした BILIVVC エンコーダーは、VVC 標準でサポートされているコーディング ツールのほとんどを実装し、同時にこれらのコーディング ツールを大幅に最適化します。リファレンス コードの実装と比較して、BILIVVC パフォーマンス上の各ツールのパフォーマンスはより効率的です。

AIとNPUによるコーデック革命 ~VPUとNPUの協働イノベーション~

この急速に変化するデジタル メディア時代において、コーデック テクノロジーはビデオとオーディオの処理において重要な役割を果たしています。AI の台頭は、コーデックに前例のない機会と課題をもたらしましたが、同時に、VPU と NPU の開発と共同イノベーションにより、コーデックは複雑なシナリオやニーズによりよく適応し、より高いレベルの画像および音声処理能力を達成できるようになりました。 。

LiveVideoStackCon2022 北京駅では、センター マイクロエレクトロニクスのマルチメディア技術ディレクターである Kong Dehui 氏を招待し、アルゴリズムの最適化、パフォーマンスの向上、エネルギー効率の向上など、複数の観点から AI と NPU がコーデックに与える影響について議論しました。AI および NPU ベースのコーデック革命の主要な要素と潜在的な機会を深く理解し、デジタル メディア分野のイノベーションと開発をさらに促進します。

2173cf23c9a82e2561c6ecccf7bd27cb.png

ストリーミング メディア イースト 2023 | VVCについて

VVC (Versatile Video Codec) は、HEVC をベースとしたハイブリッドビデオコーディングであり、既存の技術を改良し、HEVC や過去のコーデックでは利用できない一連のツールを追加することにより、HEVC と比較して主観的および客観的にそのパフォーマンスが 30% 向上しています。 40%以上。VVC は 8k、360°、HDR などの一連のシーンを対象としており、多機能ビデオ コーデックと名付けられています。

クラウドでの VVC のアプリケーションとブラウザー再生

Versatile Videocoding (VVC) は、ITU-T と ISO/IEC が共同開発した最新の国際ビデオ コーディング標準です。VVC は広範な機能セットを備えており、さまざまな分野に適用できますが、以前の高効率ビデオ コーディング (HEVC) と比較して、同じ主観的なビデオ品質を維持しながら、ビット レートを約 50% 大幅に削減できます。2020 年 7 月に標準化作業が完了した後、VVC を実用的なアプリケーションに統合するために多くの活動が開始されました。

このペーパーでは、ストリーミング アプリケーションで VVC を使用した実用的なワークフローを実装する方法を示します。フラウンホーファー VVenC VVC エンコーダーを Bitmovin のクラウドベースのエンコード ソリューションにどのように適用できるかを示します。また、最適なビットレート ラダーの選択など、実際の決定に VVC がどのように影響するかについても詳しく説明し、コストとパフォーマンスを他のエンコーダーと比較します。最後に、フラウンホーファー VVdeC デコーダーを WebAssembly と組み合わせて、ブラウザーで VVC ビデオをリアルタイムで再生する可能性を実現する方法を示します。

https://dl.acm.org/doi/10.1145/3510450.3517305

cad60b85457d8d8a9e98934503e47f88.png

Appleの新しい空間オーディオ特許 | ウェアラブルデバイスユーザー向けに空間オーディオナビゲーションシステムを提供

米国特許商標庁は、空間オーディオナビゲーションに関する特許をAppleに正式に認め、この特許は将来のAirPods、スマートグラス、およびより軽量なVision Proで使用されることになる。このシステムは、バイノーラル オーディオ デバイスを通じて指向性オーディオを再生し、ショッピング モール、その他の会場、都市公園内で道を見つけるのに役立つナビゲーションの手がかりをユーザーに提供します。このシステムは、車両のドライバーにオーディオナビゲーションを提供することもできます。

Interspeech2023 | 言語を超えた音声認識のための共同音声表現学習に基づく音素から単語へのトランスコーダ

異言語音声認識 (異言語音声認識) の目標は、高リソース言語の発音情報を使用し、それを低リソース言語に適用し、低リソース言語の音声認識のパフォーマンスを向上させることです。世界には 7,000 以上の言語がありますが、そのほとんどには注釈データが不十分です。低リソースの音声認識という課題に対処するには、言語を超えた音声認識が効果的なソリューションになります。最近の研究では、教師なし事前トレーニング技術に基づいて、利用可能な言語のラベル付きおよびラベルなしデータに対する大規模トレーニングによって汎用音声表現モデルを構築し、微調整を通じてターゲットの低リソース言語に転送できることが示されています。 、顕著な成果を達成しました。

学術ニュースレター| CN-Celeb-AV: マルチシーンオーディオビジュアルマルチモーダルデータセットのリリース

最近、清華大学と北京郵電大学の音声言語技術チームは、音声およびビデオのマルチモーダル ID 認識分野の研究者向けに、中国の有名人のマルチシーン音声およびビデオ マルチモーダル データセット (CN-Celeb-AV) をリリースしました ( AVPR)を使用します。このデータセットには、1,136 人の中国の有名人による 419,000 以上のビデオ クリップが含まれており、11 の異なるシナリオをカバーしており、完全および不完全の 2 セットの標準評価セットを提供します。

携帯電話およびIoTデバイスにおける通話ノイズ低減アルゴリズムの応用と課題

電子製品のアップグレードに伴い、ユーザーの通話品質に対する要求はますます高まっています。通話ノイズ低減アルゴリズムは通話品質において重要な役割を果たします。コンピューティング リソースの向上により、ディープ ラーニング モデルをポータブルな低電力チップ上で実行できるようになり、デバイス コストの削減により、IoT デバイスで骨伝導センサーを使用できるようになりました。ディープ ラーニングと従来のアルゴリズムをどのように組み合わせることができるでしょうか? 骨伝導センサーを使いこなすには?客観的なテストの結果を実際のユーザーエクスペリエンスに変換するにはどうすればよいでしょうか? これは、新しい時代の通話アルゴリズムの新たな課題でもあります。LiveVideoStackCon 2022 北京駅では、Wang Linzhang 氏を招待し、携帯電話や IoT デバイスでの通話ノイズ低減アルゴリズムのアプリケーションと課題について共有してもらいました。 

3fb3d19981d6fc704ed14b0f1ab58801.png

15 番目の XR ビデオ モード - 3.5D 長方形ビデオ モード

今年 (2023 年)、Apple Vision Pro のリリースにより、ビデオ パースペクティブ (VST) のベンチマーク製品が誕生しました。VST 自体の価値に応じて、将来 3 つの新しい融合現実ビデオ モードが市場に登場すると予測します。3.5D 長方形ビデオ モード、シースルー 3D パノラマ ビデオ モード、BR/MR 仮想およびリアル スプライシング モード。 

Apple Vision Pro 中国語開発チュートリアルの概要 (フェーズ 3)

この記事には、空間コンピューティングを探索するためのクイック ルック、SwiftUI を次の次元へ、空間コンピューティングのための Safari を含む 7 つのビデオ チュートリアルが含まれています。

Microsoft AR/VR 特許は、改良されたディスプレイ基板とバックプレーン基板を備えたマイクロ LED ディスプレイ デバイスを共有します

マイクロ LED は、解像度、サイズ、効率、焼き付き耐性の点で優れているため、AR/VR ヘッドセット メーカーにとって重要な注力分野になりつつあります。実際、マイクロソフトも懸念しており、「マイクロLEDディスプレイ」と呼ばれる特許を申請している。

fae7ec0e822e6b1bb26113875665f35c.png

半導体プロセス制御装置業界の調査:現地化率は5%未満、交換スペースは大きい

半導体プロセス制御装置には主に「ウェーハ製造の前工程検査」と「高度なパッケージングの中工程検査」があります。従来の集積回路技術は主にフロントエンドとバックエンドに分かれており、集積回路産業の継続的な発展と進歩に伴い、バックエンドのパッケージング技術もウエハレベルのパッケージングに発展し、高度なパッケージング技術を導き出しました。

815dc40afa4c34d9a8902917c8b4690e.png

OpenAI の主任科学者への最新インタビュー: モデル起業家精神、セキュリティと調整に関する 2 つの提案、そして Transformer は十分ですか?

OpenAI の主任研究員である Ilya Sutskever 氏は最近、友人の Sven Strohband 氏と短い会話をしました。インタビューでは主に次の問題について言及しました: ディープラーニングへの信念、AGI の想像力、Transformer が十分かどうか、衝撃的な創発能力、セキュリティと連携、モデル起業家への 2 つの提案。

ライブ ブロードキャスト + X - ライブ ブロードキャスト業界の新しいトレンド

人類は常に感動と体験を追求し、音響・映像技術は急速に発展しており、音響・映像サービスはこれまでにない勢いで様々な業界から強く求められています。今やライブブロードキャストは誰もがよく知っている言葉となりましたが、ライブブロードキャストのビジネスとエコロジー、そしてそれを支える主要技術は進化と反復を続け、活力に満ちています。今回の LiveVideoStackCon 2023 上海ステーションでは、Huawei Cloud Lu Zhenyu を招待し、ライブ ブロードキャスト業界で「古い木から新しい芽が生える」方法を共有してもらいました。

Dialogue Cloud Cong Jiang Xun: 大規模モデルは企業間や国家間の競争ではなく、人類の運命を共有するコミュニティへの鍵となる可能性があります

現在、人と機械の協調オペレーティングシステムの位置づけは大型モデルの時代まで続いています。Jiang Xun氏は、社内で「トップ戦略」について明確な言及はないが、この問題の重要性は非常に高いと述べ、「最も」という言葉は使用していない。非常に重要な戦略であり、優先度が高い。

国内大型モデルの開発とは対照的に、ほとんどの企業はまだホットスポットを追いかけている段階にあり、大きな進展はありません。ユンコンもホットスポットを追っているのか?蔣迅は否定的な答えを返した。同氏は、「人間と機械の協調オペレーティングシステムはまだ研究中である。GPT技術に基づいて、人間と機械の協調オペレーティングシステムのIQはますます高くなり、上限が増加するだけでなく、コストも削減されるだろう」と述べた。このシステムは顧客へのサービスを大幅に改善し、競争上の優位性も高まります。

b476db6075643bc745a6223bbdd15181.png

LiveVideoStackCon 2023 深センが始まりました

LiveVideoStackCon 2023 深セン駅オーディオおよびビデオ技術カンファレンスのテーマは「没入・新しいビジョン」です。10 年近い急速な発展を経て、マルチメディア エコロジーは詳細とコストにさらに注意を払い、洗練と最適化に向けて発展しており、退化と航海が圧力のはけ口となっています。一方で、既存の市場とビジネス競争が依然として非常に激しい環境の中で、企業はコストを削減し、より高い利益を追求し、ユーザーにより良いサービスとエクスペリエンスを提供する方法にさらに注意を払い始めています。ますます新しいテクノロジーやシナリオが出現し、それらを徐々に探索して使用して、より多くのビジネス、製品、商業価値を生み出すことは、企業が引き続き注目している目標です。

今回深センでは、国内外からオーディオとビデオの分野の専門家数十名を招待し、専門的な見識を共有する予定です。

29c35f5d7e88296b05f8326f75df9eb9.png

f96f05e1c57347cf78a7a20524fc80b0.jpeg

原文を読むをクリック 

詳細については、LiveVideoStackCon 2023 深セン駅の公式 Web サイトに移動してください

おすすめ

転載: blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/132137865