Transformer と組み合わせた顕著なオブジェクトの検出

出典: 情報と管理

著者: 厳雨湖、王永雄、潘志群

まとめ

効果的なグローバル畳み込み特徴を学習することは、顕著なオブジェクトの検出にとって重要です。畳み込みニューラル ネットワーク モデルが深くなるほど、より適切な大域的な受容野を取得できますが、これによりローカルな情報が失われ、ターゲットのエッジが粗くなることがよくあります。この問題を解決するために、新しい注意ベースのエンコーダ Vision Transformer が導入され、CNN (畳み込みニューラル ネットワーク) と比較して、浅いところから深いところまでのグローバルな特徴を表現し、画像の各領域で自己注意の力関係を確立できます。具体的には、まず Transformer エンコーダを使用してターゲット フィーチャを抽出し、エンコーダは浅い層にさらに局所的なエッジ情報を保持して、最終的な顕著性マップの空間詳細を復元します。次に、Transformer エンコーダの前層と後層の間で継承されたグローバル情報を使用して、最終的に Transformer の各層の出力特徴が予測されます。これに基づいて、浅いエッジ監視を使用してリッチなエッジ情報が取得され、浅い情報がグローバル位置情報と結合されます。最後に、最終的な顕著性マップは、デコーダでの漸近融合によって生成されます。これにより、高レベルの情報と浅いレベルの情報の完全な融合が促進され、顕著なオブジェクトとそのエッジの位置がより正確に特定されます。実験結果は、提案された方法が、後処理なしで広く使用されている 5 つのデータセットに対して最先端の方法よりも優れていることを示しています。

キーワード

トランスフォーマー、顕著性検出、エッジ監視、漸近融合

序章

人間の視覚システムには、視覚的なシーンから最も重要な情報を選択するための効果的な注意メカニズムがあり、顕著なオブジェクトの検出は人間のこの行動を模倣し、画像内で視覚的に最も特徴的なオブジェクトを見つけることを目的としています。前処理方法として、画像顕著物体検出は、画像処理およびコンピュータ ビジョンのさまざまな分野で成功し、広く使用されています。たとえば、物体認識 [1]、視覚追跡 [2]、画像検索 [3] などです。

初期の研究では、主に色のコントラストとテクスチャのコントラストに基づいて顕著な物体の位置を特定していました。ある程度の進歩はありましたが、手作りの特徴には通常全体的な情報が欠けているため、顕著な物体の位置を正確に特定することは困難です。近年の深層学習の発展に伴い、畳み込みニューラルネットワーク(CNN)[4]がエンドツーエンド学習を実現し、特に近年では完全畳み込みネットワーク(FCN)[5]が従来の顕著性検出手法に取って代わりつつあります。 。ただし、FCN の局所性により、FCN ベースの手法は、グローバル機能とローカル機能の間のトレードオフに直面することがよくあります。高レベルの情報をエンコードするには、モデルは多くの畳み込み層を積み重ねて受容野を拡張する必要がありますが、これによりローカル情報が失われ、エッジ情報が失われ、エッジのぼけが発生します。ZHANG et al. [6] は、多層機能をより適切に統合するための双方向情報転送ネットワークを提案しました。[7] は、より多くの機能情報を取得するための効果的なプーリング操作を設計しました。PANG et al. [8] は、隣接するフィーチャ間の情報を抽出する AIM (集約インタラクション モジュール) モジュールを設計し、また、単層フィーチャから多層フィーチャ情報を抽出して取得する SIM (自己インタラクション モジュール) モジュールも設計しました。さらに特徴的な情報。[9] は、特徴ピラミッド ネットワークと注意メカニズムに基づく空間的注意と組み合わせた、多層特徴融合顕著性検出モデルを提案しました。機能間の違いを考慮して、WEI ら [10] は、ノイズの導入をできる限り避けるためにピクセル乗算を使用する CFM (クロス機能モジュール) モジュールを設計しました。XIE et al. [11] は、HED (ホリスティックネストエッジ検出) に基づいて、スケールスペース問題を解決するために高レベルの特徴と低レベルの特徴を融合する短い接続方法を提案しました。これらの方法は、グローバル情報とローカル情報の融合効率にある程度の影響を与えます。顕著性マップの大まかな境界などの問題を目的として、この問題を解決するために多くの方法が提案されています。Xiao Chuanmin et al. [12] は、最初にエッジ検出に Canny アルゴリズムを使用し、次に 3 つの基本的なエッジ特徴を融合して画像内の顕著なエッジを抽出しました。LUO et al. [13] は、IoU (交差部分) を含む U-Net ベースのアーキテクチャを提案しました。Union) エッジ損失を使用して、エッジ キューを使用して顕著なオブジェクトを検出します。[14] オブジェクトの輪郭を生成することにより、顕著なインスタンスのセグメンテーション結果を取得します。[15] は、顕著性マップの境界を正確に予測するための新しい構造損失関数を提案しました。

ViT (Vision Transformer) [16] に触発されたこの論文では、従来の CNN ベースの手法を放棄し、Transformer エンコーダを導入します。Transformer は、ローカル特徴を維持しながら、グローバル特徴を学習するために各層にセルフアテンション メカニズムを適用します。グローバル情報が注入されます。浅層まで到達するため、グローバルおよびローカルの情報を取得する強力な能力を備えています。[17] は、画像をシリアル化し、Transformer フレームワークを利用して完全に注意深い特徴表現エンコーダを実現することにより、Transformer ベースの顕著性検出方法を設計しました。LIU ら [18] は、Transformer バックボーン ネットワークに基づいて、新しいアップサンプリング方法を提案し、顕著性と境界の検出を共同で実行するマルチタスク デコーダを設計しました。

上記の方法は非常に良好な結果を達成していますが、エッジがぼやけたり、位置が不正確になるなどの問題がまだあります。したがって,本稿では,Transformerに基づいてエッジ監視情報を追加し,顕著なオブジェクトのエッジをより明確にする。浅層では局所的なエッジ情報がより良好に保存されますが、顕著なオブジェクトのエッジ特徴を取得するには、局所的な情報だけでは十分ではなく、高レベルの意味情報や位置情報も必要です [19]。この論文では、浅いレベルの情報と高レベルの情報を融合して正確な境界マップを生成するエッジ ガイド モジュールが設計されています。さらに、新しいデコーダは、漸近融合を通じて高レベルの情報と低レベルの情報を効果的に融合するように設計されているため、顕著な物体の位置をより正確に特定できます。

1 Transformer と組み合わせた顕著なターゲット検出ネットワーク

モデルの全体的な枠組みを図 1 に示します。この論文のモデルは主に、エッジ監視と漸近融合という 2 つのモジュールで構成されます。エッジ監視情報は顕著なオブジェクトの境界を正確に特定し、漸近融合法を使用して高レベルの情報と浅い情報を効果的に融合して高品質の顕著性マップを生成します。

写真
図 1. Transformer と組み合わせた顕著なターゲット検出ネットワークのフレームワーク図

1.1   エンコーダ

本稿での入力画像のサイズは 384×384 であり、Transformer の入力は 1 次元シーケンスであるため、最初に 2 次元画像を 1 次元シーケンスに変換する必要があります。ViT からインスピレーションを得て、入力画像 y はまず次のように分割されます。

写真

解像度 16×16 の重複しない画像ブロック、N は寸法を表し、H と W はそれぞれ画像の高さと幅、シーケンスの長さ L は次のようになります。

写真

、各キーは、シーケンス y' 内の重複しない 16×16 画像パッチとして表されます。Transformer エンコーダは位置符号化情報と、マルチヘッド アテンションおよび多層パーセプトロンを備えた符号化層を備えているため、本論文ではバックボーン ネットワークとして Transformer を使用します。その構造を図 2 の右側に示します。

写真
図2 ピクセルシャッフル動作とTransformerの構造 

注意メカニズムは位置の違いを区別できないため、最初のステップは位置情報をシーケンス y' に埋め込んで位置強調特徴 F を取得する必要があります。

写真

(1)    

このうち、EPは、打ち切りガウス分布に基づいてランダムに初期化された位置符号化情報を表し、「+」は加算演算を表す。

Transformer エンコーダは 12 のレイヤで構成され、各レイヤはマルチヘッド セルフ アテンション (MSA) とマルチレイヤ パーセプトロン (MLP) で構成されます。マルチヘッドセルフアテンションはセルフアテンション (SA) の拡張です。

写真
(2)    

このうち、F は自己注意の入力特徴、Wq、Wk、Wv はトレーニング可能なパラメータの重み、d は Q、K、V の次元、φ はソフトマックス活性化関数です。複数のアテンションを並行して適用するために、マルチヘッドセルフアテンションには m 個の独立したセルフアテンションがあります。

写真

(3)    

「⊕」は連結演算を示します。要約すると、i 番目の Transformer 層では、出力特徴 F は次のようになります。

写真
(4)    

このうち、LN()は層の正規化、FiはTransformerのi番目の層の特徴です。

1.2   エッジ監視

顕著なエッジ情報のモデルは、エッジ監視モジュールを使用して確立され、顕著なエッジ特徴が抽出されます。浅いレイヤーはより良いエッジ情報を保持します。しかし、エッジの顕著な特徴を取得するには、局所的な情報だけでは十分ではなく、高度な意味情報や位置情報も必要となります。一般に、最上層は最大の受容野と最も正確な位置を持っています。したがって、図 1 に示すように、この論文では、エッジ特徴を強調するために、高レベルの情報が豊富な最後の層と浅い情報が豊富な最初の層のアップサンプリング操作を組み合わせた、トップダウンの位置伝播を設計します。この方法により、より正確に顕著なオブジェクトの輪郭を特定し、顕著なオブジェクトを正確に捉えることができます。

写真

(5)    

このうち、C1 は第 1 層の特徴情報を表します。Trans(F12; θ) はパラメータ θ を持つ畳み込み層であり、目的は特徴のチャネル数を変更することであり、R() は ReLU 活性化関数を表します; UP(F12; C1) は、F12 を C1 と同じサイズにアップサンプリングすることを目的としたアップサンプリング操作です。エッジ部分では、この論文は標準のバイナリクロスエントロピー損失関数を採用しています。

写真
(6)    

このうち、H と W はそれぞれ画像の高さと幅、P'ij はエッジ顕著性マップ、G'ij はエッジ真理値マップです。

1.3   漸近融合

漸近融合モジュールは、高レベルの情報と浅い情報を融合するために使用されます。漸近融合法は、高レベルの情報伝達過程における特徴の希薄化の問題を軽減できるだけでなく、高レベルの情報と浅い情報をより効果的に融合することができる。この論文では、Transformer レイヤーの特徴がレイヤーごとに入力画像と同じ解像度にアップサンプリングされます。この論文では、従来の双線形補間アップサンプリングを単独で使用するのではなく、新しいタイプのアップサンプリング方法であるピクセル シャッフル アップサンプリング操作を組み合わせます [20]。

畳み込み演算では、通常、畳み込み画像がアップサンプリングされてから、元の画像のサイズに復元されます。従来の CNN では、ほとんどの場合、計算に双線形補間が使用されますが、計算の複雑さを増すためにパラメーターが導入されます。ピクセル シャッフルは、入力特徴マップのサイズを拡大し、チャネル数を減らすためのアップサンプリング操作でもあります。補間により直接高解像度画像を生成するのではなく、まずコンボリューションによりk2チャネルの特徴マップを取得し、その後定期的なスクリーニングにより高解像度画像を取得します。サブピクセル コンボリューションは、より豊富な空間特徴をキャプチャするためのアップサンプリングの最初のステップとして使用され、ピクセル スクランブルを通じて各チャネルのピクセルを再配置して、まったく新しい特徴マップを取得します。図 2 の左側に示すように、元の画像の形状が w×h×(k2×n) である場合、w、h、k2×n はそれぞれ画像の幅、高さ、チャネル数になります。 、 k は画像の拡大率 ピクセル後 - シャッフル操作後の特徴マップの形状は kw×kh×n です。

Transformer 層の特徴情報をより効果的に融合し、直接アップサンプリングによって発生するノイズを低減するために、図 1 に示すように、12 個の出力特徴がまず 3 段階に分割され、第 1 段階から第 3 段階までアップサンプリングされます。ここでのアップサンプリングには、ピクセル シャッフル操作と通常のアップサンプリング操作が含まれます。i 番目の層では、特徴 F'i と前の層の特徴 F'i+1 がアップサンプリングされて連結融合され、畳み込み演算によって特徴 F"i が得られます。特徴 F'12 の最後の層は直接アップサンプリングされ、畳み込まれて特徴 F"12 が取得されます。融合式は以下の通り。

写真
(7)    

このうち「CBR」とは、畳み込み、バッチ正規化、ReLU活性化関数の演算を意味します。

次に、特徴の各レイヤーに対して一連の畳み込み演算が行われ、入力画像と同じサイズの画像、合計 12 個の出力特徴マップが取得され、最後のレイヤーの特徴マップが最終的な顕著性マップとして使用されます。この段階での損失関数は次のようになります。

写真

(8)    

このうち、Pij は顕著性マップ、Gij は真理マップであり、この段階では 12 個の損失関数があります。したがって、この論文の最終的な損失関数は次のようになります。

写真
(9)    

2. 実験と結果の分析

2.1   実装の詳細

モデルは通常の DUTS データセット [21] でトレーニングされます。Transformer エンコーダー パラメーターは、ImageNet データセットで事前にトレーニングされた重みで初期化され、残りのパラメーターは Pytorch 設定でランダムに初期化されます。ネットワークのトレーニングには SGD (確率的勾配降下) オプティマイザーが使用され、運動量 = 0.9 に設定されます。ウェイト減衰は 0.000 5 です。学習率は 0.001 から 0.000 01 に徐々に減衰し、トレーニングは合計 40 エポック、バッチ サイズ = 2 になります。トレーニング中、モデルの堅牢性を向上させるために、垂直方向および水平方向の反転などのデータ拡張技術がトレーニング データに対して実行され、入力画像は 384 × 384 に均一にトリミングされます。テスト段階では、最後の層の出力が予測された顕著性マップとして使用されます。この論文では、NVIDIA GTX TITAN Xp×2 GPU ハードウェア プラットフォームと Pytorch 深層学習フレームワークを採用しています。

2.2   データセットと評価指標の性能比較

広く使用されている 5 つの公開データセット、DUTS-TE [22]、ECSSD [23]、HKU-IS [24]、DUT-OMRON [25]、PASCAL-S [26]) でモデルを評価します。DUTS-TE は顕著性検出を評価するための最大のデータセットで、10,553 枚のトレーニング画像と 5,019 枚のテスト画像が含まれています。ECSSD には、さまざまなシーンの豊富な特徴情報を含む 1000 枚の写真が含まれています。HKU-IS には、低コントラストのシーンまたは複数のオブジェクトの 4,447 個の画像があります。データセット DUT-OMRON には、複雑な背景または少なくとも 1 つの顕著なオブジェクトを含む 5,168 個の高品質画像が含まれています。PASCAL-Sには、PASCAL VOCから厳選された850枚の自然画像が収録されています。

この方法の有効性をより適切に検証するために、この論文では、平均絶対誤差 (MAE)、F 測定値 (Fβ)、および S 測定値 (Sm) という 3 つの一般的な評価指標を選択してモデルを評価します。しきい値が異なると精度と再現率も異なるため、PR 曲線は予測結果を包括的に評価できます。MAE は平均絶対誤差であり、顕著性マップとグランド トゥルース マップ (GT) の間の類似性を測定するために使用されます。

写真

(10)    

このうち、P は予測された顕著性マップを表し、G は対応するグランド トゥルース マップ、H と W はそれぞれ顕著性マップの高さと幅です。もう一つの評価指標 Fβ は、適合率と再現率の関係を総合的に反映できる適合率と再現率の加重調和平均であり、次のように定義されます。

写真

(11)    

このうち、β2 は精度を重視するため 0.3 に設定されることが多いです。S メジャーは、前景と背景の間の接続を反映し、次のように定義される顕著性マップと真理マップの間の構造的一貫性を測定できます [27]。

写真

(12)    

このうち、Sαは対象類似度、Sβは領域類似度を表し、SαとSβの関係をバランスさせるため、通常、λは0.5に設定されます。

2.3   性能比較

提案手法の有効性をより適切に検証するために、この論文では 11 の主流の顕著性検出手法を比較します。3つの評価指標について12手法の評価結果を表1に示します。実験結果から、後処理を一切使用しないため、提案手法は CNN ベースの手法や Transformer ベースの手法と比較して大きな利点があることがわかります。表 1 のデータが示すように、特徴を抽出するバックボーン ネットワークとして Transformer を使用した場合、バックボーン ネットワークとして CNN を使用した場合よりも優れた評価結果が得られました。これは、Transformer のセルフ アテンション メカニズムがグローバルな特徴を抽出できることも示しています。より効果的に。特に ECSSD、PASCAL-S、DUTS-TE データセットにおいては最良の評価結果が得られており、提案手法の有効性が実証されている。たとえば、ECSSD データセットでは、MAE インデックスは最良の LDF メソッドより 17.64% 高くなります。低コントラストで複数のオブジェクトを含む大規模データセット DUTS-TE では、Fβ スコアが 12.15% 向上し、提案された方法が複雑なオブジェクトに直面したときに顕著なオブジェクトを正確にセグメント化できることを示しています。5 つの大きなデータセットでのモデルの検証結果を表 1 に示します。表のデータは、モデルが一定の一般化と堅牢性を備えていることを検証します。

写真
表1 各方式の性能比較

提案手法の有効性をより直観的に検証するために、図 3 に、さまざまなシナリオにおける 9 つの手法の視覚化結果を示します。提案された方法は、顕著なオブジェクトを捕捉する際に優れた結果を達成します。さらに、漸近融合戦略の有効性の恩恵を受けて、複数の顕著なオブジェクトを含むシーンでは、提案された方法はすべてのオブジェクトをより包括的に検出できます。図 3 の最初の行に示されているように、提案された方法は、低コントラストのシーンの表面にある顕著なオブジェクトの位置を正確に特定することもできます。図 3 の 4 行目に示すように、小さなターゲットや複雑なシーンでは、この論文の結果によりバックグラウンド ノイズをより適切にシールドし、顕著なオブジェクトを正確に捉えることができます。顕著なエッジ特徴の導入のおかげで、この論文の結果は顕著な領域を強調表示するだけでなく、一貫したエッジも生成できることは言及する価値があります。たとえば、行 2 と 6 では、この論文の方法はより正確に位置を特定できます。顕著なオブジェクトとその境界。行 7 の比較結果から、複数のターゲットに直面した場合でも、私たちの方法が混乱を招くオブジェクトを正確に区別できることがわかります。結論として、この論文の方法は、マルチシーン画像、複数オブジェクト画像、低コントラスト画像、および複雑なシーンで良好に機能し、この論文の方法の有効性を十分に示しています。さらに、DUTS-TE および ECSSD データセットに対するさまざまな手法の適合率-再現率曲線がプロットされています。図 4 に示すように、赤い実線は、提案された手法がほとんどのしきい値で他の手法よりも優れていることを示しています。鋭いエッジ情報と正確な位置特定を備えた相補的な顕著なエッジ情報の助けにより、PR 曲線の結果はより良くなります。

写真
図 3 顕著性マップと現在の主流の手法との定性的比較

写真
図4 PR曲線

2.4   アブレーション実験

このセクションでは、トレーニング セットとして DUTS-TR を使用し、提案されたネットワーク内のさまざまなコンポーネントが大規模データセット DUTS-TE に与える影響を調査します。テスト結果を表 2 に示します。BASNet は Transformer エンコーダの最終層から直接デコードされています. 最終層を直接アップサンプリングした場合に得られる効果は悪くないことがわかります. この不正確さは, 直接アップサンプリングがグローバル情報とローカル情報を損傷するという事実によるものと考えられます.のせいで。漸近融合を使用すると MAE が表示される

写真
表 2 アブレーション実験

漸近融合により高レベルの情報とローカルな情報を効果的に融合できるため、メトリクスが大幅に改善されます。エッジ監視を組み込むと、監視された情報によって顕著なオブジェクトのエッジの位置をより正確に特定できるため、パフォーマンスも向上します。どちらの方法でも検出効果はある程度向上しており、2つの方法を組み合わせることでさらに精度が向上します。これは、この 2 つが補完的で効果的であることを証明しています。

本稿では、定量的な分析に加えて、可視化によって各モジュールの役割を検証していますが、図5に示すように、最終層を直接デコードすると、グローバル情報とローカル情報が損なわれるため、得られる顕著性マップはぼやけてしまいます。融合。漸近融合モジュール (Aggregation) を追加すると、上位レベルからの大域的な意味情報と浅いレベルからの位置情報が融合され、より正確に顕著なオブジェクトの位置を特定できます。顕著なエッジ機能の助けを借りて、顕著なオブジェクトのエッジと位置特定が改善されます。本稿では可視化により手法の有効性を改めて検証する。

写真
図 5 さまざまなコンポーネントの視覚的な比較

3 結論

この論文では、従来の畳み込みニューラル ネットワークの制限を克服し、特徴を抽出するために Transformer エンコーダを導入し、ディープ モデルでのローカル情報の損失の問題を解決する、新しい Transformer ベースの顕著性検出方法を提案します。正確なエッジ特徴。デコーダでは、漸近融合法を使用して高レベルの情報と浅いレベルの情報を効果的に融合し、より正確な特徴マップを取得します。後処理を一切行わずに、広く使用されている 5 つのデータセットに関する実験結果は、提案されたモデルの包括的なパフォーマンスと各モジュールの有効性を、一定の一般化と堅牢性をもって実証しています。次の研究作業では、ディープ畳み込みニューラル ネットワークまたは Transformer 自体の構造を改善し、顕著なオブジェクトとそのエッジの位置をより正確にするためのより効果的な融合モジュールを設計する必要があります。

免責事項:公式アカウントに転載された記事や写真は、参考や議論のための非営利の教育および科学研究を目的としたものであり、その見解を支持したり、その内容の信頼性を確認したりするものではありません。著作権は原著作者に帰属しますので、転載原稿に著作権等の問題があった場合は、速やかに削除のご連絡をお願いします。

 「人工知能技術とコンサルティング」をリリース

おすすめ

転載: blog.csdn.net/renhongxia1/article/details/132018051