まだこのままプレイできますか?きめ細かい画像検索にはプロンプト チューニングを使用してください。

まだこのままプレイできますか?きめ細かい画像検索にはプロンプト チューニングを使用してください。

【前書き】

きめ細かいオブジェクト検索は、視覚的に類似したオブジェクトを検索するための識別表現を学習することを目的としています。ただし、既存の最も優れた成果は通常、限られたデータ領域でモデル全体を継続的に調整するためにセマンティック埋め込み空間にペアごとの類似性を課し、次善のソリューションへの容易な収束につながります。この論文では、凍結された事前トレーニング済みモデルを利用して、サンプルプロンプトと特徴適応の観点からきめの細かい検索タスクを実行する、きめの細かい検索プロンプトチューニングアルゴリズム(FRPT)を提案します。具体的には、FRPT はモデル全体を調整するのではなく、ヒンティングと適応において学習するパラメーターの数を少なくするだけで済むため、モデル全体の微調整によって引き起こされる準最適解に収束する問題が解決されます。技術的には、サンプル ヒントとして、構造摂動ヒント (SPP)が導入され、コンテンツを意識した不均一サンプリング操作によるカテゴリ予測に役立つ一部のピクセルを拡大縮小したり誇張したりすることができます。このようにして、元の事前トレーニング プロセス中に、SPP アルゴリズムは摂動キュー支援によるきめ細かい検索タスクを解決済みタスクに近づけることができます。さらに、著者らは、インスタンス正規化を通じて事前学習モデルによって抽出された特徴のインスタンスの差異を排除し、最適化された特徴にはサブカテゴリー間の差異のみが含まれるようにする、特徴適応としてカテゴリーベースの認知ギミックを提案しています広範な実験により、FRPT は学習可能なパラメーターが少なく、広く使用されている 3 つのきめ細かいデータセットで最先端のパフォーマンスを達成できることが示されています。

1. 用紙とコードのアドレス

きめ細かい検索プロンプトのチューニング

論文アドレス: https://arxiv.org/abs/2207.14465

コードアドレス: オープンソースではありません

2. 動機

詳細なオブジェクト取得 (FGOR) は、特定のメタカテゴリ (鳥、車、飛行機など) のさまざまなサブカテゴリに属する​​画像を取得し、クエリ画像と同じサブカテゴリを持つ画像を返します。ただし、視覚的に類似したオブジェクトを取得することは、特にクラス内の違いが大きくてもクラス間の違いが小さい場合、実際のアプリケーションでは依然として困難です。したがって、FGOR の核心は、視覚的に類似したオブジェクトを認識するための識別および一般化埋め込みを学習することにあります。

最近では、特殊なメトリック制約を設計したり、オブジェクトやパーツをローカライズしたりすることにより、クラス内での大きな差異でもクラス間の小さな差異に対して FGOR が実行され、成功しています。メトリクスベースおよびローカリゼーションベースの作業では、粒度の高いオブジェクトを認識するために識別埋め込みを学習できますが、前の段階で学習した FGOR モデルは次の段階でも際限なく微調整する必要があり、モデルを粒度の高い検索タスクに適応させる必要があります。ただし、FGOR モデルを継続的に調整すると、特に限られたデータ領域に直面した場合、次善のソリューションに容易に収束する可能性があり、必然的に検索パフォーマンスが制限されます。したがって、当然の疑問が生じます。FGORモデル全体を微調整せずに、識別的な埋め込みを学習することは可能でしょうか?

ヒントベースの学習は、下流のタスクを凍結された事前トレーニング済みモデルに適応させるための、下流の入力に対するタスク関連の指示です。その重要なアイデアは、事前トレーニングされたモデルを下流タスクに適応させるのではなく、適切なヒント設計を通じて元の事前トレーニング中に解決されたタスクに近づくように下流タスクを再定式化することです。このアイデアに従って、視覚言語の事前トレーニング タスクが徐々に開発されてきました。このタスクは、テキスト入力に視覚的なカテゴリの意味論を手がかりとして入れることで、自然言語から視覚的に誘導される概念を導き出します。言語モデルを最適化しなくても、多くの下流ビジョンタスクで顕著なパフォーマンスを達成しているにもかかわらず、その高速チューニング戦略はマルチモーダルモデルに合わせて調整されており、事前トレーニングされたビジョンモデルには適用できません。したがって、FGOR モデル全体の最適化による準最適解の収束を解決するために、事前トレーニングされたビジョン モデルのヒンティング スキームを設計する方法は検討する価値があります。

この論文では、著者らは、構造摂動プロンプト (SPP)、事前トレーニングされたバックボーン モデル、およびバックボーン モデルの重みのみをフリーズする **クラス固有の知覚ヘッド (CAH)** を備えた細粒度検索プロンプト チューニング (FRPT) を提案します学習する SPP および CAH パラメーターの数が少なくなり、準最適解に収束する問題が解決されます。具体的には、サンプル ヒンティング プロセスとして、SPP は、コンテンツを意識した不均一なサンプリング操作によるカテゴリ予測に役立つ一部の要素を拡大縮小したり誇張したりするように設計されています。このようにして、SPP はカテゴリ予測を容易にする方向にオブジェクト構造を調整できます。これにより、この構造摂動の下でキューに入れられた FGOR タスクが、元の事前トレーニング中に解決されたタスクに近くなります。ただし、無視できない問題は、調整を行わないバックボーンモデルでは、「同じメタカテゴリ内の粒状のオブジェクトをどのように区別するか」ではなく、「種間の異なる特徴は何か」という質問に答えるための特徴の抽出に焦点を当てていることです。 。したがって、CAH は特徴適応とみなされます。これは、インスタンス正規化を使用して種の違いを除去し、バックボーン モデルによって抽出された特徴を最適化し、最適化された特徴にはサブカテゴリ間の差異のみが含まれるようにします。微調整とは異なり、FRPT ではトレーニングするパラメーターが少なくなりますが、それでも SPP と CAH により、より優れた識別性と汎化性を備えた埋め込みを学習するため、モデル全体の微調整によって引き起こされる次善のソリューションの収束を解決します。

この論文の貢献は次のとおりです。

1. 著者は、サンプルヒントと特徴適応の観点から、凍結済みの事前トレーニング済みモデルが FGOR タスクを実行するようにガイドする FRPT を提案します。この論文は、FGOR の最適化戦略によって引き起こされる準最適解の収束を処理するヒントベースの微調整スキームを具体的に開発した最初の研究です。

2. 構造的摂動キューは、決定境界に寄与する要素を強調するために提案されており、凍結済みの事前学習済みモデルに微妙だが識別可能な詳細を捕捉するように指示します。

3. クラス固有の知覚ヘッドは、種間の違いを排除することを目的としており、これにより、特定の特徴を使用して、同じメタクラス内の特定の粒度のオブジェクトを識別できるようになります。

4. FRPT は、完全に最適化するのではなく、パラメーターの約 10% のみを最適化するだけで済み、新しい最先端の結果も達成できます。これは、広く使用されている 3 つの詳細な検索で平均検索精度が +3.5% という大幅な向上です。データセット 。

3. 方法

著者らは、フリーズされた事前トレーニング済みモデルをガイドして FGOR タスクを実行するためのきめ細かな検索プロンプト チューニング (FRPT) を提案しています。FRPT は、サンプル ヒントと特徴適応において少数の学習可能なパラメーターのみを最適化し、トレーニング中にバックボーンをフリーズしたままにします。このようにして、FRPT は、FGOR モデル全体の調整によって引き起こされる次善の解決策の収束に対処します。

3.1 ネットワークアーキテクチャ

ネットワーク アーキテクチャは上の図に示されています。入力画像 I が与えられると、まず構造摂動プロンプト (SPP) モジュールに入力されて、変更された画像IP I_{P}が生成されます。P、変更されたイメージIP I_{P}P決定境界に寄与する特定の要素を選択的に強調表示します。その後、変更されたイメージIP I_{P}P意味論的特徴MP M_{P}を出力する、凍結済みの事前トレーニングされたバックボーンへの入力としてMPMP M_{P}を作成するにはMP異なる種を識別するのではなく、同じメタカテゴリ内の粒度の高いオブジェクトを識別するには、MP M_{P}MPクラス固有の認識ヘッド (CAH) モジュールに入力して、クラス固有の特徴MR M_{R}を生成します。MR最後に、グローバル平均プーリング操作によって識別的な埋め込みが取得され、それらが同じサブカテゴリを持つ他のサンプルの検索に適用されます。

3.2 構造摂動プロンプト

モデル全体の最適化によって引き起こされる次善の解決策に収束するという問題に対処するために、著者らは、入力内のピクセルのみを変更するヒントベースの学習を考案し、ヒントが事前トレーニング中に解決されたものに近い粒度を可能にしました。タスク。したがって、著者らは、ピクセル空間でのカテゴリ予測に寄与する特定の要素を拡大縮小し、さらには誇張する構造摂動プロンプト (SPP) モジュールを提案します。このようにして、SPP は凍結された事前トレーニング済みモデルをヒントを使用して操作し、より識別可能な詳細を認識することができ、高品質な表現につながります。具体的には、SPP は 2 つのステップで構成されます。最初のステップであるコンテンツ解析は、識別情報の位置と強度を反映する識別投影マップを学習することであり、第 2 ステップである構造変更は、コンテンツを意識した不均一サンプリング操作を実行することにより、識別投影マップによって導かれます。判別要素を拡大します。これら 2 つのステップについて詳しく説明します。

コンテンツの解析

知覚の詳細とセマンティクスは、オブジェクトの構造を混乱させる上で重要な役割を果たします。この考察に基づいて、著者らは、低レベルの特徴からセマンティクスと詳細を区別する位置と規模を認識するコンテンツ解析モジュールを設計します。コンテンツ解析には、ピクセルの近傍を利用するのではなく、大きな受容野内のコンテキスト情報を集約する大きな領域のビューという魅力的な特性があります。したがって、コンテンツ解析では、識別の詳細を維持しながら、低レベルの詳細から識別の意味論をキャプチャできます。

入力画像I ∈ R 3 × H × WI \in \mathbb{R}^{3 \times H \times W} が与えられたとします。R3 × H × W、作成者は I を凍結済みの事前トレーニング済み表現モデルF ブロック 1 \mathcal{F}_{block 1}Fブロック1 _ _ _畳み込みブロック 1 では、低レベルの特徴MS ∈ RCS × HS × WS M_{S} \in \mathbb{R}^{C_{S} \times H_{S} \times W_{S}} を生成します。MSRCS× HS× WS,其中 H S , W S , C S H_{S}, W_{S},C_{S} HSWSCSは高さ、幅、チャネル数です。事前トレーニングされた表現モデルの浅いレイヤーは色やテクスチャなどの低レベルの詳細に敏感であるため、パラメーターを更新する必要がなく、引き続き適切に機能することは明らかです。

低レベルの機能を取得するMS M_{S}MS最後に、著者はそれを内容を意識した方法で識別投影マップに変換します。具体的には、判別射影マップ上の各ターゲット位置A ∈ RHS × WS \mathcal{A} \in \mathbb{R}^{H_{S} \times W_{S}}RHS× WSMS M_{S}に対応MSσ 2 \sigma^{2}についてpソースの場所は2 か所したがって、各ターゲット位置はコンテンツ認識カーネルW k ∈ R σ × σ × CS W_{k} \in \mathbb{R}^{\sigma \times \sigma \times C_{S}} を共有します。WRσ × σ × CS、ここで σ はコンテンツ対応カーネル サイズであり、MS M_{S}より小さくありません。MS幅の1 2 \frac{1}{2}21共有コンテンツ対応カーネルの使用W k W_{k}W、コンテンツ解析モジュールは、区別するセマンティクスと特徴点の位置、スケール、強度を指定します。目標位置の場合( m , n ) (m, n)( m n )の場合、計算式は次のとおりです。 ここで、r = ⌊ σ / 2 ⌋ r=\lfloor\sigma / 2\rfloorr=σ /2 :

A ( m , n ) = ∑ w = − rr ∑ h = − rr ∑ c = 1 CSW k ( w , h , c ) ⋅ MS ( m + w , n + h , c ) \mathcal{A}_{ (m, n)}=\sum_{w=-r}^{r} \sum_{h=-r}^{r} \sum_{c=1}^{C_{S}} W_{k}^ {(w, h, c)} \cdot M_{S}^{(m+w, n+h, c)}( m , n )=w = rrh = rrc = 1CSWk( w h c )MS( m + w n + h c )

識別射影マップ A は、構造変更操作に適用される前に、ソフトマックス関数を使用して空間的に正規化されます。正規化ステップでは、A の重み値の合計が 1 になるように強制されます。

A ij = e A ij ∑ i = 1 WS ∑ j = 1 HS e A ij \mathcal{A}_{ij}=\frac{e^{\mathcal{A}_{ij}}}{\sum_{ i=1}^{W_{S}} \sum_{j=1}^{H_{S}} e^{\mathcal{A}_{ij}}}イジ=i = 1WSj = 1HSeイジeイジ

構造修飾

構造変更モジュールは、識別投影マップ内のサンプル点の空間情報と対応するサンプル重みを利用してオブジェクト構造を再配置します。これにより、カテゴリ予測に寄与する入力内のいくつかの要素がさらに強調表示されます。したがって、変更された画像IP ∈ R 3 × W × H I_{P} \in \mathbb{R}^{3 \times W \times H}PR3 × W × Hは次のように表すことができます。

IP = S ( I , A ) I_{P}=\mathcal{S}(I, \mathcal{A})P=S (

S ( . ) S ( .)S ( . )は、内容を認識した不均一サンプリング関数を表します。

著者の不均一サンプリングの基本的な考え方は、弁別射影マップ A を確率質量関数として扱い、A 内のサンプル重みがより大きい領域がサンプリングされる可能性が高くなるというものです。したがって、著者らは、変更された画像と元の画像の間のマッピング関数を計算し、STN で導入されたグリッド サンプラーを使用してオブジェクトを再配置します。マッピング関数は、水平軸次元と垂直軸次元の 2 つの次元に分解できるため、マッピングの複雑さが軽減されます。変更された画像の座標 (x, y) を例にとると、元の入力のマッピングされた座標( M x ( x ) , M y ( y ) ) を計算できます\left(\mathcal{M}_{x }(x) , \mathcal{M}_{y}(y)\right)( M×( x ) Mはい( y ) ) は次のようになります。

M x ( x ) = ∑ w = 1 WS ∑ h = 1 HSA ( w , h ) ⋅ D < ( x WS , y HS ) , ( w WS , h HS ) > ⋅ w WS ∑ w = 1 WS ∑ h = 1 HSA ( w , h ) ⋅ D < ( x WS , y HS ) , ( w WS , h HS ) > , M y ( y ) = ∑ w = 1 WS ∑ h = 1 HSA ( w , h ) ⋅ D < ( x WS , y HS ) , ( w WS , h HS ) > ⋅ h HS ∑ w = 1 WS ∑ h = 1 HSA ( w , h ) ⋅ D < ( x WS , y HS ) , ( w W s , h HS ) > , \mathcal{M}_{x}(x)=\frac{\sum_{w=1}^{W_{S}} \sum_{h=1}^{H_{S} } \mathcal{A}(w, h) \cdot \mathcal{D}<\left(\frac{x}{W_{S}}, \frac{y}{H_{S}}\right),\ left(\frac{w}{W_{S}}, \frac{h}{H_{S}}\right)>\cdot \frac{w}{W_{S}}}{\sum_{w=1 }^{W_{S}} \sum_{h=1}^{H_{S}} \mathcal{A}(w, h) \cdot \mathcal{D}<\left(\frac{x}{W_ {S}}, \frac{y}{H_{S}}\right),\left(\frac{w}{W_{S}}, \frac{h}{H_{S}}\right)> }、\\\mathcal{M}_{y}(y)=\frac{\sum_{w=1}^{W_{S}} \sum_{h=1}^{H_{S}} \mathcal{A }(w, h) \cdot \mathcal{D}<\left(\frac{x}{W_{S}}, \frac{y}{H_{S}}\right),\left(\frac{ w}{W_{S}}, \frac{h}{H_{S}}\right)>\cdot \frac{h}{H_{S}}}{\sum_{w=1}^{W_{ S}} \sum_{h=1}^{H_{S}} \mathcal{A}(w, h) \cdot \mathcal{D}<\left(\frac{x}{W_{S}}, \frac{y}{H_{S}}\right),\left(\frac{w}{W_{s}}, \frac{h}{H_{S}}\right)>},M×( × )=w = 1WSh = 1HSA ( w ,h )D<(WS×HSはい)(WSHS)>w = 1WSh = 1HSA ( w ,h )D<(WS×HSはい)(WSHS)>WSMはい( y )=w = 1WSh = 1HSA ( w ,h )D<(WS×HSはい)(WsHS)>w = 1WSh = 1HSA ( w ,h )D<(WS×HSはい)(WSHS)>HS

ここでD < , > \mathcal{D}<,>D<> は、すべてのピクセルが同じ位置に収束するなどの特殊なケースを回避するための正規化器として使用されるガウス距離カーネルです。

画像の各空間位置を変更するには、元の入力内の塗りつぶされたピクセルを選択するためのグローバルな視点が必要であり、それによって構造的な知識が保持されます。さらに、サンプル重み値が大きい領域には、より多くのサンプリング機会が割り当てられるため、入力内の識別要素が増幅または誇張されます。さらに重要なのは、変更された画像の各ピクセルが互いに関連しており、オブジェクトの構造が完全に破壊されるのではなく、わずかに乱れていることです。

マッピング座標を取得した後、STN で提案されている微分可能な双線形サンプリング メカニズムが使用され、 I p I_pを使用して線形補間して最終出力を近似します。p特急

IP ( x , y ) = ∑ ( i , j ) ∈ N ( M x ( x ) , M y ( y ) ) wp ⋅ I ( i , j ) , I_{P}(x, y)=\sum_{ (i, j) \in \mathcal{N}\left(\mathcal{M}_{x}(x), \mathcal{M}_{y}(y)\right)} w_{p} \cdot I(i, j)、P( x ,y =( i , j ) N ( M×( x ) Mはい( y ) )wpj )

其中N ( M x ( x ) , M y ( y ) ) \mathcal{N}\left(\mathcal{M}_{x}(x), \mathcal{M}_{y}(y)\right )N( M×( x ) Mはい( y ) ) は、I、 wp、w_pのマップされた点の近傍を表します。wpは、マップされた点とその近傍の間の距離によって推定される双線形カーネルの重みです。

3.3 カテゴリ固有の意識向上責任者

CAH の中核は、種間の差異を排除できるインスタンス正規化 (IN) です。ただし、IN を直接使用すると識別情報が破壊される可能性があり、ターゲット検索のパフォーマンスに影響を与えることは避けられません。この制限に対処するために、著者らは、チャネル注意に基づいて種の違いを含む特徴を選択し、IN を使用してこれらの特徴を削除し、元の識別および最適化された特徴をカテゴリ固有の特性 MR M_ に統合する、チャネル注意ガイド型 IN を設計します。 {R}MR

MR = WC ⋅ MP + ( 1 − WC ) ⋅ IN ( MP ) M_{R}=W_{C} \cdot M_{P}+\left(1-W_{C}\right) \cdot IN\left( M_{P}\右)MR=WCMP+( 1WC)いん_( MP)

ここで、WC ∈ RCP W_{C} \in \mathbb{R}^{C_{P}}WCRCPさまざまなチャネル特徴の重要性を表す重み係数IN ( MR ) IN\left(M_{R}\right)いん_( MR)は入力MR M_{R}MRインスタンスの正規化された特徴。SENet からインスピレーションを得て、チャネル アテンションは次のように表現できます。

WC = σ ( WL δ ( WF g ( MP ) ) ) W_{C}=\sigma\left(W_{L} \delta\left(W_{F} g\left(M_{P}\right)\right )\右)WC=p( WLd( Wg( MP) ) )

ここで、 g( ) はグローバル平均プーリング操作WF ∈ RCP r × CP W_{F} \in \mathbb{R}^{\frac{C_{P}}{r} \times C_{P}} を表します。WRrCP× CPWL ∈ RCP × CP r W_{L} \in \mathbb{R}^{C_{P} \times \frac{C_{P}}{r}}WLRCP×rCPは 2 つの不偏全結合層の学習可能なパラメーターで、その後に ReLU 活性化関数 δ とシグモイド活性化関数 σ が続きます。サイズ縮小率 r は、パフォーマンスと複雑さのバランスをとることを目的として、8 に設定されています。IN のパラメータなしの定義は次のとおりです。

IN ⁡ ( MP i ) = MP i − E [ MP i ] Var ⁡ [ MP i ] + ϵ \operatorname{IN}\left(M_{P}^{i}\right)=\frac{M_{P} ^{i}-E\left[M_{P}^{i}\right]}{\sqrt{\operatorname{Var}\left[M_{P}^{i}\right]+\epsilon}}( MP私は)=だった[ MP私は+ϵ MP私はE[ MP私は]

その中MP i ∈ RHP × WP M_{P}^{i} \in \mathbb{R}^{H_{P} \times W_{P}}MP私はRHP× WP特徴マップMP M_{P}ですMPの i 番目のチャネルは、ゼロによる除算を避けるために使用され、各チャネルの平均E [ ⋅ ] E[\cdot]を計算します。E [ ]と標準偏差Var ⁡ [ ⋅ ] \operatorname{Var}[\cdot][ ]でした

3.4 最適化

クラス固有の特徴を取得した後、モデルはクロスエントロピー損失でのみトレーニングされます。次のクロスエントロピー損失を分類子 C( ) に適用して、サブクラスを予測します。

L = − log ⁡ P ( y ∣ C ( g ( MR ) ∣ θ ) ) \mathcal{L}=-\log P\left(y \mid C\left(g\left(M_{R}\right) \mid \theta\right)\right)L=ログ_P( yC( g( MR)

ここで、 y はラベルC ( g ( MR i ) ∣ θ ) C\left(g\left(M_{R}^{i}\right) \mid \theta\right) を表します。C( g( MR私は)θ )は、パラメーター θ による分類器の予測です。最適化プロセスは、SPP および CAH モジュール内のパラメーターにのみ影響しますが、バックプロパゲーション中のバックボーン ネットワークには影響を与えないため、表現モデル全体の最適化による準最適解への収束に関連する問題が解決されます。

4. 実験

上の表は、この論文の手法によるアブレーション実験の結果を示しており、各モジュールがモデル全体のパフォーマンスに寄与していることがわかります。

上の表は、CUB-200-2011、Stanford Cars-196、および FGVC Aircraft データセットに対するさまざまな手法の実験結果を示しており、同じバックボーンの下では、この論文の手法がより優れたパフォーマンスを達成できることがわかります。

さまざまな微調整戦略 上の表に示されているように、事前トレーニングされたビジョン モデルを調整すると、モデルをフリーズする場合と比較して取得パフォーマンスが低下する可能性があります。限られた粒度のデータセットで事前トレーニングされたモデルを調整すると、次善のソリューションに収束して一般的なビジョン モデリングの能力が損なわれる可能性があるため、この現象はもっともらしいです。

この論文では FRPT のプラスの効果をよりよく示すために、著者は上の図で検索精度とトレーニング損失曲線を視覚化しました。FRPT 曲線から、トレーニング エポックを増やすと、通常はパフォーマンスの向上が遅くなり、収束速度が大幅に向上することがわかります。

FRPT の有効性をより深く調査するために、著者らは、サブクラスごとに 2 つの異なるサンプル数 (CUB-200-2011 で 10 と 5) を使用した少数ショット設定に基づいて広範な実験を実施しました。上の表の 5 ショットと 10 ショットの実験設定。FRPT は、事前にトレーニングされたさまざまな視覚モデルの下で、微調整戦略よりも常に優れたパフォーマンスを発揮します。CUB-200-2011 のすべての画像を使用して調整された事前トレーニング済みモデルと比較して、FRPT はサブクラスあたり 10 サンプルのみを使用しますが、ほぼ同等のパフォーマンスを達成します。

上の表に示されているように、処理方法を構造摂動ヒンティング (SPP) から固定ヒンティング戦略、つまりオブジェクトを直接スケーリングする方法に切り替えると、パフォーマンスが大幅に低下します。具体的には、作成者は、クラス アクティベーション マップ (CAM) またはアノテーション情報によって提供される境界ボックスを使用してオブジェクトの位置を特定し、元の画像からそれらを切り取ります。

著者は、元の画像と変更された画像の視覚化結果を上図に示します。これらの視覚化により、私たちの方法がさまざまなサブカテゴリを正しく識別できる理由と方法が説明されます。

上の図では、元の画像と変更された画像を示すことに加えて、著者らは 3 つの表現モデルの識別活性化マップも提供しています。

5. まとめ

この論文では、著者らは、FGOR モデル全体の最適化によって引き起こされる準最適解の収束に対処することを目的とした、ファイングレイン検索プロンプト チューニング (FRPT) を提案します。FRPT は、構造摂動キュー (SPP) とクラス固有の知覚ヘッド (CAH) を設計し、フリーズされた事前トレーニング済み視覚モデルが非アドホック検索タスクを実行できるようにガイドします。技術的には、SPP はクラス予測に寄与する一部のピクセルを拡大縮小して誇張します。これにより、この構造的摂動により、フリーズされた事前トレーニング済みモデルが識別の詳細に焦点を当てることができます。CAH は、インスタンス正規化を使用して種の違いを排除することで、事前トレーニングされたモデルによって抽出された意味的特徴を最適化します。これにより、最適化された特徴は、同じメタカテゴリ内の粒度の高いオブジェクトに敏感になります。微調整スキームと比較して、FRPT はトレーニングするパラメーターが少なくなりますが、それでも SPP と CAH により、より優れた識別性と一般化を備えた埋め込みを学習するため、FGOR モデルのソリューション全体の収束を微調整することによって引き起こされる準最適性を解決します。広範な実験により、私たちの FRPT は、学習可能なパラメーターが少なく、広く使用されている 3 つのきめ細かいデータセットで最先端のパフォーマンスを達成できることが示されています。

【プロジェクトの推薦】

Xiaobai の主要なカンファレンス論文のコア コード ライブラリ: https://github.com/xmu-xiaoma666/ external-tention-pytorch

Xiaobai 用 YOLO ターゲット検出ライブラリ: https://github.com/iscyy/yoloair

Xiaobai のトップジャーナルとカンファレンスの論文分析: https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading

「見てください、月収は10万ですよ!」

「好きになることを学べ、何千万もの価値がある!」

おすすめ

転載: blog.csdn.net/Jason_android98/article/details/127100348
おすすめ