LayoutTransformer: セルフアテンションによるレイアウトの生成と完成

LayoutTransformer: セルフアテンションによるレイアウトの生成と完成 (紙の読書)

Kamal Gupta、メリーランド大学、米国、引用:41、コード論文

1 はじめに

私たちは、画像、モバイル アプリケーション、ドキュメント、3D オブジェクトなどのさまざまなドメインにおけるシーン レイアウト生成の問題に取り組みます。ほとんどの複雑なシーンは、自然に設計されたものであるか人工的に設計されたものであるかにかかわらず、単純に構成されたグラフ プリミティブの意味のある配置によって表現できます。新しいレイアウトを生成したり、既存のレイアウトを拡張したりするには、これらのプリミティブ間の関係を理解する必要があります。この目的を達成するために、私たちは、自己注意を活用してレイアウト要素間の文脈上の関係を学習し、特定のドメインで新しいレイアウトを生成する新しいフレームワークである LayoutTransformer を提案します。私たちのフレームワークは、空のセットまたはシード プリミティブの初期セットから新しいレイアウトを生成でき、各レイアウトで任意の数のプリミティブをサポートするように簡単に拡張できます。さらに、私たちの分析は、モデルがプリミティブの意味論的特性を自動的にキャプチャできることを示しています。私たちは、自然画像内のオブジェクト境界ボックス (COCO バウンディング ボックス)、ドキュメント (PubLayNet)、モバイル アプリケーション (RICO データ セット) など、非常に多様なデータ ドメインで堅牢性を達成するための、レイアウト プリミティブの表現とトレーニング方法の簡単な改善を提案します。および 3D 形状 (PartNet)) は、競争力のあるパフォーマンスを発揮します。

2. 全体論的思考

NLP と同様に、テキストをレイアウトに変換し、前の単語 (レイアウト) に基づいて次の単語 (レイアウト) を予測します。

3. 方法

このセクションでは、レイアウト生成の問題に関するアテンション ネットワークを紹介します。まず、さまざまなドメインにおけるプリミティブ レイアウトの表現について説明します。次に、LayoutTransformer フレームワークについて説明し、Transformer を使用してレイアウトの確率分布をモデル化する方法を示します。マスクされた多頭セルフアテンションにより、レイアウト プリミティブ間の非ローカルな意味関係を学習できるようになり、可変長レイアウトを処理する柔軟性も提供されます。

レイアウトのデータセットが与えられると、レイアウト インスタンスは n 個のノードのグラフ G として定義できます。ここで、各ノード i ∈ {1, ..., n} はグラフ プリミティブです。グラフが完全に接続されていると仮定し、アテンション ネットワークにノード間の関係を学習させます。ノードは構造情報または意味論的な情報に関連付けることができます。各ノードについて、それに関連付けられた情報を特徴ベクトル si で示される d 次元空間に投影します。情報自体は、ある多様体上では離散的 (例: カテゴリの一部)、連続的 (例: カラー)、または多次元ベクトル (例: 符号付き距離関数の一部) になる可能性があることに注意してください。具体的には、ShapeNet の実験では、多層パーセプトロン (MLP) を使用して、部分埋め込みを d 次元空間に投影します。一方、2D レイアウトの実験では、1 次元の投影に匹敵する、学習された d 次元のカテゴリ埋め込みを使用します。バイアスゼロの MLP を使用してクラス ベクトルを潜在空間にホット エンコードします。

離散変数を使用したジオメトリの表現: 各ジオメトリ フィールドに 8 ビットの一様量子化を適用し、カテゴリ分布を使用してモデル化します。連続信号の離散化は、画像生成で以前に採用されていたアプローチですが、私たちの知る限り、レイアウト モデリング タスクでは検討されていませんでした。座標を離散化すると近似誤差が生じますが、任意の分布を表現できることがわかりました。これは、ドキュメントやアプリケーションのワイヤーフレームなど、対称性の強いレイアウトでは特に重要です。R 2 R^2の i 番目のプリミティブが次のように、各プリミティブの幾何学的フィールドを同じ d 次元空間に独立して投影します。R2中表示为( s i , x i , y i , h i , w i s_i, x_i, y_i, h_i, w_i s私はバツ私はy私はh私はw私は)。すべての要素を引数のフラットなシーケンスに連結します。また、シーケンスの始まりと終わりを示す 2 つの追加パラメーター s⟨bos⟩ と s⟨eos⟩ をエンベディングに追加します。これで、レイアウトは 5n + 2 個の潜在ベクトルのシーケンスで表すことができます。

ここに画像の説明を挿入
LayoutTransformer は、レイアウト要素を入力として受け取り、次のレイアウト要素を出力として予測します。トレーニング中に、教師強制を使用します。つまり、グラウンド トゥルース レイアウト マーカーをマルチヘッド デコーダー ブロックへの入力として使用します。このブロックの最初の層はマスクされたセルフ アテンション層で、モデルが現在の要素を予測するために前の要素のみを参照できるようにします。パディング用に、各レイアウトの先頭に特別な <bos> タグを追加し、最後に <eos> タグを追加します。

初期 K 個の可視プリミティブ (最初から生成される場合、K は 0 になる可能性があります) が与えられると、私たちの注意ベースのモデルは、可視ノードのランダムな置換 π = (π1, . . . , πK) を入力として受け取ります。 したがって、d から構成されるシーケンスは次元ベクトル(θ1、…、θ5K)が得られる。これは重要なステップであることがわかりました。なぜなら、プリミティブ表現を幾何学フィールドと構造フィールドに分解することで、私たちのattentionモジュールが各座標次元に重みを明示的に割り当てることができるからです。

ここに画像の説明を挿入

4. 実験

ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/qq_43800752/article/details/131131073