《インクリメンタルトランス構造によるマスキング位置エンコーディングによる強化画像修復》

ここに画像の説明を挿入します
CVPR2022に掲載されました!
コードリンク: https://github.com/DQiaole/ZITS_inpainting

1. 質問

ここに画像の説明を挿入します

画像の修復は近年大幅に進歩しました。しかし、現実的な質感と合理的な構造を持つ画像をどのように復元するかは依然として難しい問題です。
1) 畳み込みニューラル ネットワークの受容野は限られています。一部の特定の方法では、規則的なテクスチャのみを処理し、全体の構造が失われます。図 1 に示すように、シーン、特に弱いテクスチャを持つシーンでは、大きな全体像がなければ、画像 クリティカルなエッジやラインを回復するのは難しいことを理解してください
2) アテンションベースのモデルは構造回復の長期依存性をよりよく学習できますが、画像サイズが大きい場合には計算コストが高いため制限されます 3)
過去この研究では、画像復元における位置情報は明示的に議論されておらず、利用されていません。

2.方法

これらの問題に対処するために、このホワイトペーパーでは、追加の構造修復ツールを利用して増分イメージ修復を容易にすることを提案します。このモデルは、強力なアテンションベースの Transformer モデルを利用して、固定の低解像度スケッチ空間で全体的な画像構造を復元します。このようなグレースケール空間は、正しい構造情報を伝えるために、より大きなスケールに簡単にアップサンプリングされます。ゼロ初期化残差加算により、構造復元機能を他の事前トレーニング済み描画モデルと効率的に統合できます。さらに、マスク位置エンコーディング戦略を使用すると、大きな不規則なマスクのパフォーマンスが向上します。
ここに画像の説明を挿入します


  • マスクされたイメージI m I_mを考慮した場合の概要を上の図 2 に示します。メートル、正確なエッジI e I_e,線I l I_l、バイナリマスクMMMに接続して、Transformer Structure Restoration (TSR) モデルにインポートし、復元されたエッジとラインをスケッチ空間として取得します[ I ~ e , I ~ l ] = TSR ( I m , I e , I l , M ) [ \tilde{I}_e, \tilde{I}_l] = TSR(I_m, I_e, I_l, M)[=T S R (メートル推論段階では、Simple Structure Upsampler (SSU) により、グレースケール スケッチを任意のサイズに簡単にアップサンプリングできます。次に、ゲート畳み込みに基づく構造特徴エンコーダー (SFE) がマルチスケール特徴S k = SFE ( I ~ e , I ~ l , M ) , k = { 0 , 1 , 2 , 3 } S_k=SFE(\チルダ{I}_e、\チルダ{I}_l、M)、\\k=\{ 0、1、2、3\}S=SFE ( _ _k={ 0 ,1 2 3 }この論文では、S k S_k をS,つまりI ~ = FTR ( I m , M , α k ⋅ S k ) , k = { 0 , 1 , 2 , 3 } \tilde{I} = FTR(I_m, M, \alpha _k\cdot S_k), k=\{0, 1, 2, 3 \}=FTR (_ _

おすすめ

転載: blog.csdn.net/weixin_43994864/article/details/123326072