オーディオおよびビデオ技術開発ウィークリー | 304

週に 1 回、オーディオおよびビデオ技術分野の乾物について概説します。

ニュース寄稿:[email protected]

00d6a3859a9afcf8a6b00b4d30f36351.png

より強力な Llama 2 はオープンソースであり、商用目的で直接使用できます: 一夜にして大きなモデルのレイアウトが変更されました

Meta は、待望の無料商用版である Llama 2 をついにリリースしました。

6,000件のアンケートから明らかになった職業上の不安とAI時代のチャンス|レポートをダウンロード

大規模な AI モデルの開発は、ChatGPT から GPT4 へ、そしてさらに多くの業界モデルへと、日を追うごとに変化しており、かつては遠い存在だと思われていた人工知能技術は、臨界点に達しているようです。テクノロジーの「出現」と「ジャンプ」の能力です。アメリカの模擬司法試験のスコアでは、GPT-4は上位10%程度にランクインできるのに対し、GPT-3.5のスコアは下位10%程度しかランクインできません。多くの人が、将来のキャリアが置き換えられるのではないかとますます心配し始めており、その結果、多面的なキャリア不安が生じています。

a31dee3e8933592e01b719166ffc26fb.png

販売業者の最初の AI アップデートの裏側: Alimama Wanxiang Lab が大打撃

Alimama Wanxiang Lab は、小売業者がゼロコストでモデルを適応させ、ゼロコストでシーンを作成し、30 秒でバッチで高標準の商品マップを作成できる新しい AI 機能を提供します。現在、Anta、パーティクルフィーバー(粒子熱)、ロクシタン、VERMO、ZIWUなどの大企業と中小企業がそれを経験しており、業界全体のビジネスをAIの新時代に導いています。

450a6ce53df754c474c8a457032b2f4a.png

IGBT業界の企業概要と知識習得

IGBT (絶縁ゲートバイポーラトランジスタ) は、(BJT) バイポーラトランジスタと絶縁ゲート電界効果トランジスタ (MOS) で構成される複合完全制御電圧駆動パワー半導体デバイスであり、(MOSFET) 金属酸化物ハーフフィールドも備えています。実効トランジスタの高い入力インピーダンスと、パワートランジスタ(GTR)の低い導通電圧降下です。

超高速プログラマブル二次元原子結晶ホモ接合を実現 | 進捗状況

二次元原子結晶は、バンドギャップの調整が可能、高い移動度、低い誘電率、斬新なスピンバレーやエネルギーバレーなどの特徴を有しており、これらの優れた性質を利用して次世代の情報機能デバイスの開発が可能となります。それによって集積回路を構築します。pn 接合は現代のエレクトロニクスおよびオプトエレクトロニクスにおける最も基本的な単位デバイスであり、二次元原子結晶 pn 接合をどのように構築するかは、二次元結晶に基づく電子デバイスの将来の開発にとって重要な研究意義を持っています。

チップの放熱対策が急務!

半導体によって消費される電力により熱が発生するため、デバイスから熱を除去する必要がありますが、これを効率的に行う方法がますます課題となっています。

熱は半導体の無駄です。この現象は、機器や配線で電力が消費されるときに発生します。電力はデバイスの切り替え時に消費されます。つまり、電力はアクティビティに依存しており、不完全なデバイスやワイヤは常に電力を浪費しています。デザインが完璧であることはほとんどなく、必要のない機能を実行するアクティビティから熱が発生する場合もあります。しかし、ある時点で、設計チームは熱を除去する方法を見つけなければなりませんでした。そうしなければ、製品の寿命が非常に短くなってしまうからです。

Chris Miller へのインタビュー | チップ戦争: 世界で最も重要なテクノロジーをめぐる戦い

半導体産業の主導権をめぐる闘争は、今日の世界で最も重要な経済ストーリーの 1 つです。他の多くのハイテク産業でそうしてきたように、中国が米国とその民主的同盟国から半導体の優位性を奪えるかどうかが、今世紀の軍事バランスを大きく左右するだろう。そして、この壮大な闘争の基本的な状況を理解するのに最適な本は、タフツ大学の歴史家クリス・ミラーが書いた『チップ戦争: 世界で最も重要な技術をめぐる競争』です。

インタビューの中でミラー氏は、輸出規制、中国の取り組み、チップ法案、米国の半導体労働者の必要性、自国のチップ産業を復活させようとする日本の試みなどに関する幅広い質問に答えた。

https://www.noahpinion.blog/p/interview-chris-miller-historian

ca02adeed62dcce6b528a0938c7a1e1c.jpeg

CVPR 2023 | Nanyang Technological Institute と SenseTime が E3DGE を提案: 2D 画像から数秒で 3D 画像を生成可能

CVPR 2023で、南洋理工大学とSenseTime共同研究室S-Labの研究者らは、再構成速度、再構成品質、編集品質を考慮できない既存の3D GAN反転手法を目的として、エンコーダベースの高速3D GAN反転手法を提案した。 、自己教師あり 3D GAN 逆トレーニング フレームワークが提案されています。同時に、グローバル-ローカルのマルチスケール構造と 2D-3D ハイブリッド アライメント モデルを構築することにより、忠実度の高い編集可能な 3D 再構成が実現されます。この手法は、StyleSDF や EG3D を含む SoTA 3D GAN モデルに適応しており、複数のベンチマーク テストで優れた結果を達成しています。

SLAM のフィルタリングベースの方法とパラメータの調整方法に問題がありますか?

この記事は Zhihu 氏の優れた Q&A によって構成されており、被験者がスラム バックエンド フィルタリングに関する内容を実践している際に、この記事を読む過程で「論文の式が実際のコード実装と異なる」などのいくつかの問題を発見しました。論文の作成と実験の実行、彼を混乱させる質問。この記事では、読者にインスピレーションを与えることを期待して、この質問に対するいくつかの優れた回答をまとめています。

3d9bfc9ebdeb13e84d13a24c252a29ab.png

ICASSP 2023 | 画像圧縮を学習するためのマルチレベル空間コンテキスト モデル

画像圧縮を学習するための最先端の方法は、空間コンテキスト モデルを特徴としており、従来の方法と比較してレート歪みの大幅な改善を達成しています。ただし、自己回帰コンテキスト モデルにはシリアル デコードが必要であり、実行時のパフォーマンスが制限されます。Checkerboard コンテキスト モデルを使用すると、RD パフォーマンスが低下しますが、並列デコードが可能になります。この論文では、高速なデコードとより優れた RD パフォーマンスを実現できる一連のマルチレベル空間コンテキスト モデルを提案します。

UniColor: Transformer を使用したマルチモーダル カラーリングのための統合フレームワーク

この記事では、ストローク、サンプル、テキスト プロンプトの入力と部分的な編集をサポートする、マルチモーダルな統一カラーリング フレームワークを提案します。3 つの異なる形式のプロンプト入力をプロンプト ポイントに変換することで統合されたカラーリング ネットワークには、Chroma-VQGAN と Hybrid-Transformer の 2 つの部分が含まれます。Chroma-VQGAN は、グレースケール チャネルとカラーを組み合わせることにより、特徴抽出と再構成に使用されます。チャネルは処理されます。より多くのグレースケールの詳細を保持するために個別に実行され、ハイブリッド トランスフォーマーはカラーリングに重点を置きます。最後に、アプリケーション インターフェイスは、実際の使用において統合フレームワークの有効性を実証するように設計されています。

0b446c3f523ef29ad1f51cbc7d859dac.png

DCVC-DC | 複数のコンテキストを使用したニューラル ビデオ圧縮

ビデオ コーデックの原理は、符号化される現在の信号について、コーデックが以前に再構築された信号から関連するコンテキスト (たとえば、コンテキストとしてのさまざまな予測) を見つけて、時空間の冗長性を削減することです。関連性の高いコンテキストほど、ビットレートの節約が高くなります。しかし、ほとんどのニューラル ビデオ コーデック (NVC) では、コンテキストの抽出と利用の方法がまだ限られています。

このペーパーでは、NVC をさらに改善するために、時間的および空間的次元でコンテキストの多様性を高めます。時間的次元では、この論文はモデルがフレーム全体にわたる階層的な品質パターンを学習するようにガイドし、ビデオの長距離時間相関をさらに活用し、ほとんどの NVC に存在する品質低下の問題を効果的に軽減します。

patchVVC: ボリュームビデオをストリーミングするためのリアルタイム圧縮フレームワーク

現在、ボリューム ビデオは、ユーザーに没入感の高い視聴体験を提供する魅力的なマルチメディア アプリケーションです。ただし、ボリューム ビデオのストリーミングは帯域幅を非常に要求します。したがって、ボリュメトリック ビデオを展開するには、基礎となる点群フレームを効率的に圧縮することが重要です。既存の圧縮技術は 3D ベースまたは 2D ベースですが、実際の導入にはまだ欠点があります。2D ベースの方法はビデオの圧縮に優れていますが速度が遅く、3D ベースの方法は高速ですが圧縮率は低くなります。本稿では、高い圧縮率とリアルタイムデコード速度を両立する3Dベースの圧縮フレームワークpatchVVCを提案する。さらに重要なのは、patchVVC は点群パッチに基づいて設計されているため、視野適応型ストリーミング システムに適しており、帯域幅要件がさらに軽減されます。評価結果は、patchVVC が、視野適応ストリーミング シナリオにおいて、代表的な 2D ベースのスキーム V-PCC と同等のリアルタイム デコード速度と同等の圧縮率を達成することを示しています。

https://dl.acm.org/doi/10.1145/3587819.3590983

d90a1db205433d56030a46c2b3a7355b.png

研究者は音を正確に 3 つの基本要素に分類します

聴覚から得られるこの洞察は、ファジー ロジックと組み合わされています。つまり、音の一部は、いつでも、正弦波、過渡現象、またはノイズの 3 つのカテゴリの 1 つだけではなく、いずれかに属する可能性があります。完璧に再構築するために、フィエロはサウンドを分解する方法を最適化しました。

研究者がヘッドフォンを通じて没入型 3D オーディオを体験するオーディオ プラグイン VIRTUOSO を開発

5 年以上にわたる最先端の研究プロジェクトを経て、サウンド エンジニアはスピーカーを必要とせずに、ヘッドフォンを通じて真に没入型の 3D オーディオを体験できるようになりました。

ハダースフィールド大学の Hyunkook Lee 博士が率いる Applied Psychoacoustics Lab (APL) は、VIRTUOSO と呼ばれるイマーシブ オーディオ プラグインを開発しました。

ICASSP 2023 講演者表彰論文コレクション

ICASSP (International Conference on Acoustics, Speech and Signal Processing) は、音響、音声、および信号処理に関する国際会議であり、IEEE が主催する信号処理とその応用に関する世界最大かつ最も包括的なトップレベルの会議であり、幅広い学術的影響力を持っています。

今年の ICASSP 2023 に選ばれた論文の中には、話者認識 (声紋認識) に関する論文が約 64 件あり、当初は話者検証 (31 件)、話者認識 (9 件)、話者ダイアライゼーション (17 件) に分かれています。 )、なりすまし防止(4)、その他(3)の5種類。

742da81e9a2e4f4cda6812ce926401e8.png

Station B のバーチャル ヒューマンとモーション キャプチャ テクノロジー

Bilibili などのプラットフォームでのバーチャル アンカーの人気により、バーチャル ライブ ブロードキャストに強い関心を持つユーザーやアンカーが増えています。3D リアルなバーチャル ヒューマンは、優れた視覚効果を備えているだけでなく、没入型のライブ ブロードキャスト体験を提供し、ユーザーに全く新しい視聴体験をもたらします。たとえば、Douyin が立ち上げた 3D 超リアルなバーチャル アンカーである Ling Yan Huan は、デビューから 1 週間で 60 万人以上のファンを獲得し、ネットワーク全体の動画再生回数は 1 億回を超え、生放送ルームでは視聴者数100万人の水準を突破した。3Dリアルなバーチャルヒューマンは、将来的にバーチャルライブブロードキャストの分野で市場トレンドになることが予想されます。

VisionPro アイトラッキングの精度推定に関するディスカッション

この記事では、VisionPro アイ トラッキングの精度測定について説明し、次に裸眼での直接観察との違い、および業界他社のアイ トラッキング データの比較について説明します。

AR/VR向けMicroOLEDインサイトレポート

このレポートは、AR/VRのコア要件とコア技術、AR/VR画面の分類、特性と開発傾向、MicroOLEDを使用したAR/VRの歴史、MicroOLEDを使用したAR/VRの製品予測など、警察業界チェーンの調査成果に基づいています。 、世界のMicroOLED売上予測、世界のMicroOLED産業チェーンパノラマ、MicroOLEDコアサプライチェーン、Apple glass MicroOLEDサプライチェーン、Rokid glass MicroOLEDサプライチェーンなど。

8d8074b1e58f967f7fcd893686ec6510.png

フォーブス誌の Apple Glasses レビュー: 発売後すぐに完売

本能的に好きか嫌いかに関係なく、ブランド体験、インタラクション、ブランドコンテンツ消費の新たな可能性が開かれます。したがって、あらゆる業界の先進的なブランドは注目すべきです。

人工知能業界の詳細レポート: AI の大規模モデルが数千の業界に力を与える

AI+office は、この AIGC の波の中核となる受益者です。この AIGC の波の転換点は、自然言語処理大規模モデル技術に基づくテキスト作成ツールである ChatGPT が、世界中で人気のある現象レベルのアプリケーションに急速に成長し、その後、マルチモーダル大規模モデル ベースのアプリケーションに成長したことです。画像、ビデオ、オーディオなどを迅速に宣伝します。AIGC、すなわち生成型人工知能は、テキスト、音声、ビデオ、画像などのコンテンツ作成シナリオを対象とした AI 技術であるため、既存のさまざまな種類のオフィス ソフトウェアの製品力を直接的に向上させ、反復的な作業を促進することができます。オフィスソフトのバージョンアップ。

3b375168cc71fd675ef5f904624be279.png

Minlue Technology CTO、Hao Jie 氏へのインタビュー: 大きなモデルも覆されるでしょう、そして製品の臨界点を見つけなければなりません!

新しいテクノロジーが実際に驚くべき変革効果を生み出すまでには、長くも短くもない「誇大広告」のギャップが存在することがよくあります。一部の参入者は急いで前に進み、それを楽しんでいますが、一部のプレーヤーはペースを緩め、どのように目立つかを再考しています。イノベーションの。 

では、大型モデルは一般の人々や業界が期待する価値をどのように果たしているのでしょうか? インダストリモデルを構築するにはどうすればよいでしょうか? また、大型モデル製品の品質はどのように評価すればよいのでしょうか?

ブルームバーグ: 開発者はVision Proアプリ開発に慎重

ブルームバーグのマーク・ガーマン氏は、Power Onの新しいエピソードで、AppleのVision Proの成功にはサードパーティのアプリが不可欠である一方で、このデバイスの高価な価格設定とニッチな性質により、依然として多くの問題があることを意味していると指摘した。当初は多数の開発者が参加しました。

しかし、Gurman 氏は、Vision Pro ユーザーはお金を惜しまないグループであるため、開発者はアプリケーションのvisionOS バージョンに対してより多くの料金を請求できると考えています。このうち、有料アプリの価格設定の開始点は 20 ドルであり、特にグラフィック デザインや生産性のカテゴリでは、ほとんどのアプリの価格は 50 ドルから 250 ドルの間であると同氏は考えています。

原文を読むをクリック 

詳細については、LiveVideoStackCon 2023 深セン駅の公式 Web サイトに移動してください

おすすめ

転載: blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/132013862