デイリーアカデミックエクスプレス4.18

CV - コンピューター ビジョン | ML - 機械学習 | RL - 強化学習 | NLP 自然言語処理 

件名:  cs.CV

1. なんでも修復: 何でもセグメント化して画像修復を実現

タイトル: なんでも修復: あらゆるもののセグメンテーションと画像修復の出会い

著者:Tao Yu、Runseng Feng、Ruoyu Feng、Jinming Liu、Xin Jin、Wenjun Zeng、Zhibo Chen

記事リンク: https://arxiv.org/abs/2304.06790

プロジェクトコード: https://github.com/geekyutao/Inpaint-Anything

まとめ:

        最新の画像修復システムは、大幅な進歩にもかかわらず、マスクの選択と穴埋めに問題があることがよくあります。Segment-Anything Model (SAM) に基づいて、マスクレス画像修復の最初の試みを行い、Inpaint Anything (IA) という名前の新しい「クリックして塗りつぶす」パラダイムを提案します。IA の背後にある中心的なアイデアは、さまざまなモデルの利点を組み合わせて、復元に関連する問題を解決するための非常に強力で使いやすいパイプラインを構築することです。IA は 3 つの主な機能をサポートします: (i) すべてを削除: ユーザーがオブジェクトをクリックすると、IA はそれを削除し、コンテキストで「穴」を滑らかにします; (ii) すべてを埋める: いくつかのオブジェクトを削除した後、ユーザーは IA テキストベースを提供できますヒントは、Stable Diffusion などの AIGC モデルを駆動することによって、対応する生成されたコンテンツで穴を埋めます; (iii) すべてを置換: IA を使用すると、クリックして選択したオブジェクトを保持し、残りの背景を新しく生成されたシーンに置き換えることができます。また、Inpaint Anything (IA) に基づく新しいプロジェクトの共有と促進を喜んでお手伝いします。私たちのコードは、この https URL で入手できます。

2.Soundini: 自然なビデオ編集のための音声誘導拡散

タイトル: Soundini: 自然なビデオ編集のための音声誘導拡散

作话:Seung Hyun Lee, Sieun Kim, Innfarn Yoo, Feng Yang, Donghyeon Cho, Youngseo Kim, Huiwen Chang, Jinkyu Kim, Sangpil Kim

記事リンク: https://arxiv.org/abs/2304.06818

プロジェクトコード: https://kuai-lab.github.io/soundini-gallery/

まとめ:

        ゼロ ショット セットアップを使用して、ビデオの特定の領域に音声ガイド付きの視覚効果を追加する方法を提案します。編集されたビデオのすべてのフレームは、一時的な一貫性を維持しながら視覚的な変化を持たなければならないため、ビジュアルの外観をアニメーション化することは困難です。さらに、既存のビデオ編集ソリューションは、雷雨、波、パチパチと音を立てる炎など、時間の経過に伴うビジュアル スタイルの変化を無視しながら、フレーム間の一時的な一貫性に重点を置いています。この制限を克服するために、動的スタイルに一時的なサウンド機能を使用します。具体的には、オーディオビジュアル潜在空間でオーディオ潜在表現を使用して、ノイズ除去の拡散確率モデルを導きます。私たちの知る限り、私たちの研究は、強度、音色、音量などのサウンド固有のプロパティを持つさまざまな音源から、サウンドガイドによる自然なビデオ編集を初めて調査したものです。さらに、オプティカル フロー ベースのガイダンスを設計して、時間的に一貫性のあるビデオ フレームを生成し、隣接するフレーム間のピクセル単位の関係をキャプチャします。実験結果は、私たちの方法が既存のビデオ編集技術よりも優れており、音の特性を反映したよりリアルなビジュアルを生成することを示しています。私たちのページにアクセスしてください: この https URL.

3.デルタノイズ除去スコア

タイトル: デルタ ノイズ リダクション スコア

著者: Amir Hertz、Kfir Aberman、Daniel Cohen-Or

記事リンク: https://arxiv.org/abs/2304.07090

プロジェクトコード: https://delta-denoising-score.github.io/

まとめ:

        Delta Denoising Score (DDS) を導入します。これは、テキストベースの画像編集用の新しいスコアリング関数であり、入力画像の変更を最小限に抑えて、ターゲット ヒントに記述されている内容を実現します。DDS は、テキストから画像への拡散モデルの豊富な生成事前確率を活用します。これは、最適化問題で損失項として使用して、画像をテキストで示される目的の方向に導くことができます。DDS は、画像編集に分別蒸留サンプリング (SDS) メカニズムを利用します。SDS のみを使用すると、ノイズの多い勾配のために詳細でぼやけた出力が生成されることが多いことを示します。この問題に対処するために、DDS は入力画像に一致する手がかりを使用して、不要な SDS 方向の誤りを識別して削除します。私たちの重要な前提は、一致したキューと画像のペアで計算されたときに SDS がゼロになる必要があるということです。つまり、スコアがゼロでない場合、その勾配は SDS の間違ったコンポーネントに起因する可能性があります。私たちの分析は、テキストベースの画像から画像への変換における DDS の威力を示しています。さらに、DDS を使用して効果的なゼロ ショット画像変換モデルをトレーニングできることを示します。実験結果は、DDS が安定性と品質の点で既存の方法よりも優れていることを示しており、テキストベースの画像編集での実用的なアプリケーションの可能性を強調しています。

Ai の詳細情報:プリンセス AiCharm
ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/muye_IT/article/details/130224036