デイリー アカデミック エクスプレス 6.10

 CV - コンピューター ビジョン | ML - 機械学習 | RL - 強化学習 | NLP 自然言語処理  

科目: 履歴書

1.反事実世界モデリングによる(マシン)ビジョンの統合 

タイトル: 反事実世界モデリングによる (マシン) ビジョンの統合

作 M.ベア、ケビン・ファイゲリス、ホンリン・チェン、ワンヒー・リー、ラーフル・ヴェンカテシュ、クレメン・コタール、アレックス・デュランゴ、ダニエル・L・K・ヤミンズ

記事リンク: https://arxiv.org/abs/2306.01828

まとめ:

        マシン ビジョンの主要な手法は、タスクごとに異なるアーキテクチャを採用しており、高価なタスク固有のラベル付きデータセットでトレーニングされています。この複雑さは、堅牢なタス​​ク全般の認識が依然としてボトルネックとなっているロボット工学などの分野の進歩を妨げています。対照的に、自然言語の「基礎モデル」は、大規模な事前学習済みニューラル ネットワークが、広範囲にわたる明確に異なるタスクに対してゼロショット ソリューションを提供できることを示しています。ここでは、ビジョンベースのモデルを構築するためのフレームワークである Counterfactual World Modeling (CWM) を紹介します。これは、さまざまな視覚的計算の実行を促すことができる、統合された教師なしネットワークです。CWM には、基礎となるモデル概念のビジョンへの適用を妨げる中核的な問題に対処する 2 つの重要なコンポーネントがあります。1 つ目は構造化マスキングです。これは、予測モデルが視覚データの低次元構造を捕捉することを促進するマスキング予測手法を一般化したものです。したがって、モデルはシーンの主要な物理コンポーネントを要素に分解し、視覚的なマーカーの小さなセットを通じてそれらへのインターフェイスを公開します。これにより、CWM の 2 番目の主なアイデアである反事実キューが可能になります。これは、実際の入力に対する予測モデルの出力を、わずかに修正された入力と比較することによって、多くの明確に異なる視覚的表現をゼロショット方式で計算できるという観察です ( "反事実") 入力。CWM が、キーポイント推定、オプティカル フロー、オクルージョン、オブジェクトのフラグメント、相対深度などのさまざまなタスクに対して、現実世界の画像とビデオの高品質な読み出しを生成することを実証します。総合すると、私たちの結果は、CWM が概念的に単純なベースでマシン ビジョンの多面的な部門を統合するための有望な手段であることを示唆しています。

2.Video-LLaMA: ビデオ理解のための命令調整されたオーディオビジュアル言語モデル

タイトル: Video-LLaMA: ビデオ理解のための命令調整された視聴覚言語モデル

著者: Hang Zhang、Xin Li、Lidong Bing

記事リンク: https://arxiv.org/abs/2306.02858

プロジェクトコード: https://github.com/DAMO-NLP-SG/Video-LLaMA

まとめ:

        大規模言語モデル (LLM) がビデオ内の視覚および聴覚コンテンツを理解できるようにするマルチモーダル フレームワークである Video-LLaMA を紹介します。Video-LLaMA は、フリーズされた事前トレーニング済みのビジョンおよびオーディオ エンコーダとフリーズされた LLM からクロスモーダル トレーニングをブートストラップします。静的な画像の理解に焦点を当てた以前のビジュアル LLM (MiniGPT-4 や LLaVA など) とは異なり、Video-LLaMA は主に、ビデオ理解における 2 つの課題、つまり (1) ビジュアル シーンの時間的変化のキャプチャ、および (2) 視聴覚信号の統合に対処します。最初の課題に対処するために、ビデオ Q フォーマーを提案し、事前トレーニングされた画像エンコーダーをビデオ エンコーダーにアセンブルし、ビデオと言語の対応を学習するためのビデオからテキストへの生成タスクを導入します。2 番目の課題では、事前トレーニングされたオーディオ エンコーダーとして複数のモダリティを調整する一般的な埋め込みモデルである ImageBind を利用し、ImageBind の上にオーディオ Q フォーマーを導入して、LLM モジュールの妥当な聴覚クエリ埋め込みを学習します。ビジュアルエンコーダーとオーディオエンコーダーの出力をLLMの埋め込み空間に合わせるために、多数のビデオ/画像キャプションペアと、適度な数だが高品質のビジュアル命令チューニングデータセットでVideo-LLaMAをトレーニングします。Video-LLaMA はビデオ コンテンツを認識して理解する能力を示し、ビデオ内で提示される視覚情報と聴覚情報に基づいて意味のある応答を生成することがわかりました。これは、オーディオビジュアル AI アシスタントの有望なプロトタイプとしての Video-LLaMA の可能性を強調しています。

3.PolyVoice: 音声間の翻訳の言語モデル

タイトル: PolyVoice: 音声から音声への翻訳のための言語モデル

著者: Qianqian Dong、Zhiying Huang、Chen Xu、Yunlong Zhao、Kexin Wang、Xuxin Cheng、Tom Ko、Qiao Tian

記事リンク: https://arxiv.org/abs/2306.02982

プロジェクトコード: https://speechtranslation.github.io/polyvoice/

 

まとめ:

        言語モデルに基づいた音声翻訳 (S2ST) システムのフレームワークである PolyVoice を紹介します。私たちのフレームワークは、翻訳言語モデルと音声合成言語モデルの 2 つの言語モデルで構成されています。私たちは完全に教師なしの方法で生成された個別の音声単位を使用するため、私たちのフレームワークは非書き言葉にも使用できます。音声合成部分には既存のVALL-EX方式を採用し、単位ベースの音声言語モデルを構築します。これにより、私たちのフレームワークは元の音声の音声特徴と話し方を保存することができます。中国語→英語および英語→スペイン語のペアでシステムをチェックします。実験結果は、私たちのシステムが高い翻訳品質と音声品質の音声を生成できることを示しています。この https URL は音声サンプルを提供します。

 

Aiの詳細情報:Princess AiCharm
ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/muye_IT/article/details/131308543