DragGAN アップグレード | 中国科学技術大学と上海 AI 研究所が FreeDrag をリリース: ポイント追跡なしでセマンティック コンテンツの安定したドラッグ!

論文arxiv.org/abs/2307.04…
コードgithub.com/LPengYang/F…
プロジェクトページlin-chen.site/projects/fr…

ガイド

最近、AIGC広大な の世界に激しい画像編集手法が登場しました。つまり、画像上の元の位置 (ハンドル ポイント) から目的の位置 (ターゲット ポイント) に意味コンテンツをドラッグすることで、細かくカスタマイズされた編集操作が実行されます。たとえば、猫にご褒美を与える印象的な魔法の操作wink:

この驚くべき効果は、カンファレンスで公開されたSIGGRAPH 2023[Drag Your GAN] 論文 (以下、 ) から得られます。DragGANそして、DragGAN のコードが公開されると、わずか数週間で 30,000 個のスターを獲得し、ネチズンの間で「ドラッグ」ブームを引き起こしました。DragGAN のおかげで、さまざまな AI 描画ツールの「アキレス腱」は弱点ではなくなり、満足できない場合は修正するだけで済みます。

図 1. DragGAN はコンテンツの突然変異によりトラック ポイントを失います

最近、中国科学技術大学と上海 AI 研究所の研究者は、関連する研究である FreeDrag を発表しました。研究者らは、以前の DragGAN が 2 つの交互の反復プロセスで構成されていることを示しました。

(1) 動作監視プロセスは、handle point対応するオブジェクトに向かってtarget point動作をガイドします。

(2) ポイント追跡プロセスは、handle point移動後の正確な位置を特定して、次の移動の方向と制約の特徴を提供します。

したがって、DragGAN はポイント追跡の精度に大きく依存します。ただし、ポイント追跡戦略は、各移動後のデフォルトの検索領域内にハンドル ポイントの特性を完全に継承するポイントが 1 つだけ存在すると暗黙的に想定しているため、本質的に不安定です。この仮定は次の 2 つの状況で崩れます。

i) 画像内容の急激な変化による追跡の喪失 (図 1)

ii) 等高線や馬の脚など、探索範囲内(図2)内の類似点による追跡誤差。

ポイント トラッキングが正しくないと、次の動きに対して間違った方向と制約特性が提供され、エラーが蓄積して編集の品質が低下する可能性があります。

図 2. 類似点の存在による DragGAN の誤った点追跡

方法

不安定なポイント追跡プロセスが画像編集の品質を必然的に損なうことを防ぐために、中国科学技術大学と上海AI研究所の研究者は共同で、特徴指向のポイントベースのインタラクティブ編集フレームワークであるFreeDragを提案しました。FreeDrag は、アダプティブ アップデート テンプレート機能、ファジー ポジショニング、線形検索テクノロジーを導入することで、正確なポイント トラッキングを行わずに、より安定した信頼性の高いドラッグ編集を実現できます。

図 3. DragGAN によるポイント追跡と FreeDrag によるポイント位置特定の比較。

DragGAN には正確な位置決めが必要です p k p^{k}_{i} FreeDrag はフィーチャの違いを制限することでアンカー ポイントを制限します。 t k t^{k}_{i} 存在 p k p^{k}_{i} 近くにありますが、確認する必要はありません p k p^{k}_{i} 特定の場所。

動的に更新されるテンプレート機能

研究者らはまず、追跡ポイントの欠落の問題を軽減するために、動的に更新されるテンプレート特徴技術を提案しました。テンプレート機能は、各動きの品質を測定することによって更新するかどうかを決定します。つまり、各更新の比率はコントロールの値によって決まります。より大きい \ラムダ 更新の度合いが大きいことを意味します。動きの品質が高いほど更新の度合いが高くなります。動きの質は動きの終わりによって測られる t k t^{k}_{i} これは、その位置のフィーチャと最後のテンプレート フィーチャ値の間の L1 距離によって測定され、値が小さいほど移動品質が高くなります。

テンプレート フィーチャーの更新プロセスはハンドル ポイントの位置や特性に依存しないため、正確なポイント トラッキングの負担が軽減され、同時に、適応更新戦略によってもたらされる滑らかさにより、テンプレート フィーチャーの堅牢性が向上し、劇的なコンテンツの変更を克服し、編集されたコンテンツの異常な損失を回避できます。

ファジーローカリゼーションと線形探索

紧接着,研究者们提出模糊定位和线性搜索技术来缓解跟踪点模糊问题。FreeDrag 通过移动距离和特征差异来为每次的移动定位适合的目标点,即公式(10)。定位主要分为三种情况:继续向target point移动(移动质量高);保持当前位置不动(移动不彻底),点回退(移动异常)。

相比于DragGAN要求的精确的点跟踪,公式(10)搜寻的定位点是“模糊”因为它并不要求搜寻handle point的准确位置,而是通过约束特征差异确保定位点在handle point附近, 因此摆脱了精确定位的负担。此外,公式(10) 只在原始handle point 和 target point 形成的直线上进行点搜索,这种线性搜索策略有效地缓解了相邻区域内相似点的干扰,保障了运动监督的可靠性,进一步提高点移动的稳定性。

实验

DragGAN 和 FreeDrag 在各类场景上的对比如下图(图4)所示,可以发现FreeDrag可以有效地防止handle point的异常消失(如图4第一个例子中消失的嘴巴和第二个例子中消失的眼镜),同时有力地避免了由于内容突变和相似点干扰导致的异常编辑,保障了点移动的可靠性(如图4第三个例子中大象的眼睛和第四个例子中的马腿)。 此外,从图4的(5)-(8)例子可以观察到FreeDrag 可以通过稳定的点移动更有效更精确地实现预定的编辑目标。进一步的,在各类场景上的大量实验(图5) 充分验证了FreeDrag 可以通过稳定的点移动实现更高的编辑质量,助力交互式的基于点的图像编辑达到新的高度。

图片对比

図 4 さまざまなシナリオにおける DragGAN と FreeDrag の比較

図 5 他のシナリオにおける DragGAN と FreeDrag の比較

视频对比

左边两张图分别为原始图片和编辑目标(红色为handle point, 蓝色为target point) 右边分别为为DragGAN 和FreeDrag的处理过程(gif)

ゾウの目をドラッグする例では、DragGAN の画像レイアウトの突然変異により、ゾウの目を動かすプロセス中にポイント トラッキングの損失が発生したことが観察できます。ポイント トラッキングの損失により、その後の動きに対する効果的な動作監視が不可能になり、意図した編集目的を達成できませんでした。対照的に、動的に更新されるテンプレートの特徴の滑らかさのおかげで、FreeDrag は画像コンテンツの急激な変化をより適切に回避できるため、目の特徴を所定の位置により確実にドラッグできます。

馬の脚をドラッグする例では、DragGAN が馬の脚を動かすプロセス中に間違ったポイント追跡を行い、その後の動きの監視に間違った最適化方向を提供し、それによって画質が低下したことがわかります。対照的に、FreeDrag のファジー位置特定と線形検索戦略は、類似ポイントの干渉を効果的に軽減し、ポイント移動に対する信頼性の高い監視信号を提供するため、意図した編集目的を高品質で達成します。

おすすめ

転載: juejin.im/post/7258533971964215356