ディープラーニングに基づく2シーンのテキスト検索アルゴリズムを知ってください

要約: 近年、コンピュータビジョンのさまざまな分野での深層学習の台頭に伴い、深層学習ベースのシーンテキスト検索アルゴリズムが登場しました。これにより、シーンテキストの検出と距離測定のプロセスを深層ニューラルネットワークに統合できます。

この記事は、GuYurunYimaiによるHUAWEICLOUDコミュニティ「ディープラーニングに基づくシナリオテキスト検索」から共有されています。

テキスト検索は、画像ライブラリから特定の文字列を含む画像を取得すると同時に、画像内の文字列の位置を特定するプロセスです(図1を参照)。これは、シーンテキストにおける重要な科学的問題です。理解し、商品に適用されます。検索、図書館の本の管理、ネットワーク画像のセキュリティ監査などのシナリオでの生産効率が大幅に向上します。さらに、テキスト認識では、画像内のすべてのテキストインスタンスを正確に検出して認識する必要があります。エンドツーエンドのテキスト認識タスクとは異なり、テキスト検索タスクは、ユーザーが関心のあるテキストの検索に重点を置いています。

シーンテキスト検索タスク

エンドツーエンドのテキスト認識タスクと同様に、画像内のテキストには、可変フォント、不規則な文字配置、可変長の文字シーケンスなどの問題があります。自然シーンのテキスト検索に固有の課題は、主に次の3つの側面から生じます。

(1)取得する文字列の違いが非常に弱い:一般的なターゲットや顔とは異なり、単語の違いは非常に弱く、通常は複数の文字の違いがあるため、類似性の高い単語を区別する方法は、テキスト検索の難しさ。図2に示すように、取得される「india」と「indian」という単語は1文字だけ異なりますが、取得される画像シーケンスは完全に異なります。

(2)取得する同じ文字列には、芸術的なフォントなど、画像の視覚的な違いやフォントの大きな変化があります。

(3)クロスモーダル特徴間の類似性測定:画像内のテキストインスタンスとアクセス文字列は2つの異なるモダリティに属し、どちらも可変長シーケンスです。クロスモーダルシーケンス特徴間の類似性を測定することは困難の1つです。 。

シーンテキスト検索タスクの難しさ

過去数年間のシーンテキスト検索の方法[3][6][7]はすべて手作業で設計された機能に基づいており、テキスト検出と距離測定は別々に処理されます。浅いエンジニアリング機能と段階的なテキスト検出および距離測定プロセスにより、ネットワークモデルは最適化プロセスでグローバル最適化を達成できなくなります。近年、コンピュータビジョンのさまざまな分野での深層学習の台頭に伴い、深層学習ベースのシーンテキスト検索アルゴリズムが登場しました。これにより、シーンテキストの検出と距離測定のプロセスを深層ニューラルネットワークに統合できます。深層学習に基づくテキスト検索アルゴリズムは、単語エンコーディングに基づく方法[1]と類似性学習に基づく方法[2]に大別できます。

ワードエンコーディングに基づく方法の中心的なアイデアは、クエリ文字列を事前定義されたエンコーディングベクトル(PHOC [3]など)に変換すると同時に、画像に含まれる可能性のあるすべてのワードのエンコーディングベクトルを予測することです。最後に、文字列の符号化ベクトルと画像から予測される符号化ベクトルとの距離を計算して、クエリ文字を計算します。計算式は次のとおりです。

これは、2つのベクトル間の距離(ハミング距離、コサイン距離など)を測定する関数を表します。図3に示すように、ワードエンコーディングベースの方法のネットワーク構造は、特徴マップの各位置でベクトルを予測する単一の完全に畳み込みのネットワークで構成されます。これは、テキストインスタンスの水平方向の境界ボックス(中央)を表します。水平ボックスの点x軸座標、水平フレーム中心点y軸座標、水平フレーム幅、水平フレーム高さ)、位置がテキストに属していることの信頼性を示し、対応する単語に対応するPHOCベクトルを表します。テキスト行が属します。

推論段階では、画像ライブラリ内の各画像について、最初にテキストの信頼性に従って画像から前のテキスト候補領域を選択し、次にクエリ文字列のエンコードベクトルと各テキスト候補領域の間の距離を計算します。画像のスコアとして距離を最小化します。

単語ベースの符号化方式のフローチャート

類似性学習ベースの方法の中心的なアイデアは、画像内の候補テキスト領域とクエリ文字列の間の類似性を直接測定し、類似性を通じて画像をランク付けして取得することです。図4に示すように、ネットワークは画像ブランチとテキストブランチで構成されています。画像ブランチは、検出モジュールと画像シーケンスモデリングモジュールで構成されています。検出モジュールは、単一ステージの検出器FCOS [4]を使用します。この検出器の主な機能は、多数のテキスト候補ボックスを生成することです。画像シーケンスモデリングモジュールは、双方向リカレントニューラルネットワークで構成されており、内部ゲートメカニズムを利用して、シーケンス内の各フレーム間の相関がモデル化され、シーケンス機能のコンテキスト情報が取得されます。このモジュールは、テキスト候補ボックスの機能を入力として受け取り、最後に意味的に拡張されたテキスト機能を出力します。同様に、テキストブランチは、単語埋め込みモジュールとテキストシーケンスモデリングモジュールで構成されます。単語埋め込みモジュールは、クエリ文字列を入力として受け取り、固定サイズの特徴ベクトルを出力します。このモジュールは、学習可能な埋め込みモジュール(カテゴリの数は言語の文字タイプの数に等しい)と双一次補間で構成されます。クエリ文字列の各文字の特徴は、埋め込みモジュールを介して取得されます。可変長文字シーケンス機能(シーケンスの長さは文字列文字と同じです)は、双一次補間アルゴリズムによって固定長に補間されます。次に、補間された固定長の特徴がテキストシーケンスモデリングモジュールに入力され、意味的に強化された特徴が取得されます。最後に、クエリ文字列が画像に含まれる可能性は、との間の最大類似度として定義され、次のように計算されます。

ここで、は2つのベクトル間の類似度を測定する関数(コサイン類似度など)を表します。特に、2つのベクトル間の類似性は、対応する単語ペア間の正規化された編集距離によって監視されます[5]。さらに、画像ブランチの機能をより適切に最適化するために、テキスト認識タスクがマルチタスク方式でネットワークフレームワークに導入され、モデルがより適切なシーケンス機能を抽出するようにガイドします。

推論段階では、画像ライブラリ内の各画像について、最初に検出器FCOSを使用して画像から最初の(値は100)テキスト候補領域を選択し、次にクエリ文字列の特徴と特徴の間の余弦類似度を計算しますテキスト候補領域の次数、および画像のスコアとして最大の類似性を取ります。

類似性に基づく学習方法のフローチャート

他の方法と比較して、この方法の検索パフォーマンス(mAP)は大幅に改善されています。3つの英語データセットSVT、STR、およびCTRでの検索パフォーマンスは次のとおりです。

さらに、この方法はラテン語以外の言語にも簡単に拡張でき、その中国語の検索パフォーマンスを以下に示します。中国語の文字タイプが多いため、単語コーディングに基づく方法のコード長が急激に増加し、ネットワークの学習と収束が困難になっていることがわかります。また、コード長の増加により、コード間の計算の複雑さが急激に増加し、検索速度が低下します。ただし、類似性学習に基づく方法は、中国語の検索パフォーマンスでは依然として良好に機能します。

参考

  • ゴメスL、マフラA、ルシノールM、他 シングルショットシーンのテキスト検索[C]//コンピュータビジョンに関する欧州会議(ECCV)の議事録。2018:700-715。
  • Wang H、Bai X、Yang M、他 共同テキスト検出と類似性学習によるシーンテキスト検索[C]//コンピュータビジョンとパターン認識に関するIEEE/CVF会議の議事録。2021:4558-4567。
  • AlmazánJ、Gordo A、FornésA、他 属性が埋め込まれた単語のスポッティングと認識[J]。パターン分析とマシンインテリジェンスに関するIEEEトランザクション、2014、36(12):2552-2566。
  • Tian Z、Shen C、Chen H、他 Fcos:完全畳み込み1ステージオブジェクト検出[C]//コンピュータービジョンに関するIEEE/CVF国際会議の議事録。2019:9627-9636。
  • Levenshtein V I.削除、挿入、および反転を修正できるバイナリコード[C]//ソビエト物理学doklady。1966、10(8):707-710。
  • Anand Mishra、Karteek Alahari、CV Jawahar、「Textual Cuesを使用した画像検索」、ICCV、2013年。
  • K. Ghosh、L.Gómez、D。Karatzas、E。Valveny、「文字列テキスト検索によるクエリの効率的なインデックス作成」、2015年第13回文書分析と認識に関する国際会議(ICDAR)、2015年、1236-1240ページ、doi: 10.1109/ICDAR.2015.7333961。 

 

[フォロー]をクリックして、HUAWEI CLOUDの新技術について初めて学びましょう〜

{{o.name}}
{{m.name}}

おすすめ

転載: my.oschina.net/u/4526289/blog/5518895