画像データ内の隠された情報の探索: 意味論的エンティティの認識と関係抽出への素晴らしい旅

画像データ内の隠された情報の探索: 意味論的エンティティの認識と関係抽出への素晴らしい旅

1 はじめに

1.1 背景

キー情報抽出 (Key Information Extraction、KIE) は、テキストまたは画像からキー情報を抽出することを指します。OCRの下流タスクとして、文書画像のキー情報抽出タスクには、フォーム認識、チケット情報抽出、IDカード情報抽出など、多くの実際的な応用シナリオがあります。しかし、これらの文書画像から重要な情報を手動で抽出・収集するには時間と労力がかかり、画像内のビジュアル、レイアウト、テキストなどをどのように自動的に融合させて重要な情報の抽出を完了させるかが課題となっています。価値観と挑戦。

特定のシーンの文書画像の場合、キー情報の位置や配置は比較的固定されているため、研究の初期段階では、キー情報を抽出するためのテンプレートマッチングに基づく手法が多く、プロセスが比較的単純であることを考慮すると、 、この方法は現在でも多くのシナリオで広く使用されています。ただし、テンプレート マッチングに基づくこの方法をさまざまなシナリオに適用すると、テンプレートの調整と適応に多大な労力がかかり、移行コストが高くなります。

ドキュメント画像の KIE には、通常、次の図に示すように 2 つのサブタスクが含まれています。

  • (1)SER:Semantic Entity Recognition(意味実体認識)、検出された各テキストを名前とIDカードに分けるなど分類します。下の写真の黒い箱と赤い箱です。
  • (2) RE:Relation Extraction 検出された各テキストを質問 (キー) と回答 (値) に分けるなど、分類します。次に、各質問に対応する回答を見つけます。これは、キーと値の一致プロセスを完了するのと同じです。下図の赤枠と黒枠はそれぞれ質問と回答を表し、黄色の線は質問と回答の対応を表しています。

1.2 深層学習に基づく主流の手法

一般的な KIE 手法は固有表現認識 (Named Entity Recognition、NER) に基づいていますが、このタイプの手法はテキスト情報のみを使用し、位置情報や視覚的特徴情報を無視するため、精度が制限されます。近年、ほとんどの学者は、複数のモダリティの入力情報を統合し、特徴融合を実行し、マルチモーダル情報を処理し始め、それによって KIE の精度を向上させています。主な方法は以下の通りです

  • (1) グリッドベース手法:画像レベルでのマルチモーダル情報の融合を主眼とした手法であり、テキストの大部分は文字粒度であり、テキストと構造情報の埋め込み方法は比較的単純である。 Chargrid[1] およびその他のアルゴリズム。
  • (2) トークンベース手法: NLP における BERT などの手法を指し、位置や視覚などの特徴情報をマルチモーダル モデルに共同エンコードし、大規模なデータセットに対して事前学習を行うことで、では、良好な結果を得るために少量のラベル付きデータのみが必要です。LayoutLM[2]、LayoutLMv2[3]、LayoutXLM[4]、StrucText[5]、その他のアルゴリズムなど。
  • (3) GCN ベースの方法: このタイプの方法は、画像とテキストの間の構造情報を学習しようとするため、次のようなオープンセット情報抽出 (トレーニング セット内で見られなかったテンプレート) の問題を解決できます。 GCN[6]、SDMGR[7]、およびその他のアルゴリズム。
  • (4) エンドツーエンドベースの手法: OCR テキスト認識と KIE 情報抽出という既存の 2 つのタスクを統合ネットワーク上に配置して共同学習し、学習プロセス中に相互に強化し合う手法です。Trie[8] やその他のアルゴリズムなど。

この一連のアルゴリズムの詳細については、「実践 OCR 10 講義」コースの第 6 部「文書分析の理論と実践」を参照してください。

2. 重要情報抽出タスクの処理

LayoutXLM(Tokenベース)などのアルゴリズムがPaddleOCRに実装されていると同時に、PP-StructureV2ではLayoutXLMマルチモーダル事前トレーニングモデルのネットワーク構造が簡素化され、ビジュアルバックボーン部分が削除され、視覚的に無関係なVIが削除されています。 -LayoutXLM は設計されており、同時に人間の読む順序に合わせたソート ロジックと UDML 知識蒸留戦略を導入し、最終的に重要な情報抽出モデルの精度と推論速度を同時に向上させます。

以下では、PaddleOCR に基づいて重要な情報抽出タスクを完了する方法について説明します。

非エンドツーエンド KIE 方式では、キー情報の抽出を完了するには少なくとも 2 つのステップが必要です。まず、OCR モデルを使用してテキストの位置とコンテンツの抽出を完了し、次に KIE モデルを使用してテキストを抽出します画像、文字位置、文字内容からキー情報を抽出し、そこからキー情報を抽出します。

2.1 OCR モデルのトレーニング

2.1.1 テキスト検出

(1) データ

PaddleOCRで提供されているモデルの多くは汎用モデルですが、テキスト検出の際、一般に隣接するテキスト行の検出は位置の距離に応じて区別されます。上図に示すように、PP-OCRv3を使用する場合は、テキスト検出のための一般的な中国語と英語の検出モデルでは、「民族」と「漢民族」という 2 つの異なるフィールドを一緒に検出するのが簡単で、そのため後続の KIE タスクの難易度が高くなります。したがって、KIE タスクを実行するプロセスで、最初にドキュメント データセットの検出モデルをトレーニングすることをお勧めします。

データにラベルを付ける際には、上図の「民族 漢」の 3 文字よりも近い、キー情報のラベルを分離する必要があり、この際、「民族」と「漢」を 2 つのテキスト検出としてマークする必要がありますボックスをオンにしないと、後続の KIE ミッションの難易度が上がります。

下流のタスクでは、一般的に、200~300Zhang のテキスト トレーニング データで基本的なトレーニング効果を保証できます。事前知識があまりない場合は、200~300最初に Zhang の画像をマークしてから、後続のテキスト検出モデルをトレーニングできます。

(2)モデル

モデルの選択に関しては、PP-OCRv3_det を使用することをお勧めします。検出モデルの学習方法の詳細については、「OCR テキスト検出モデルのトレーニング チュートリアル」および「PP-OCRv3 テキスト検出モデルのトレーニング チュートリアル」を参照してください。

2.1.2 テキスト認識

自然風景に比べて、文書画像内のテキスト内容認識の難易度は一般的に比較的低い(背景が比較的単純である)ため、PaddleOCR で提供されている PP-OCRv3 一般テキスト認識モデルを試すことをお勧めします( PP-OCRv3 モデル ライブラリのリンク))。

(1) データ

ただし、一部の文書シナリオでは、ID カードのシナリオでの珍しい文字や、請求書のシナリオでの特殊なフォントなど、いくつかの課題もあり、これらの問題により、テキスト認識の難易度が高まります。モデルの精度を高めるために、特定のドキュメント シーンのテキスト認識データセットに基づいて微調整するために PP-OCRv3 モデルをロードすることをお勧めします。

モデル微調整のプロセスでは、5000基本的なモデル微調整効果を確実にすることができる、少なくとも垂直方向のシーンのテキスト認識画像を準備することをお勧めします。モデルの精度と一般化能力を向上させたい場合は、このシーンと同様のテキスト認識データをさらに合成し、公開データセットから一般的な実際のテキスト認識データを収集し、それをこのシーンのテキスト認識トレーニング タスク プロセスに追加できます。トレーニング プロセス中、各エポックの実垂直データ、合成データ、および一般データの比率を左側付近にすることをお勧めします。1:1:1これは、さまざまなデータ ソースのサンプリング比率を設定することで制御できます。それぞれ 1W、2W、5W のデータを含む 3 つのトレーニング テキスト ファイルがある場合、データは次のように構成ファイルに設定できます。

Train:
  dataset:
    name: SimpleDataSet
    data_dir: ./train_data/
    label_file_list:
    - ./train_data/train_list_1W.txt
    - ./train_data/train_list_2W.txt
    - ./train_data/train_list_5W.txt
    ratio_list: [1.0, 0.5, 0.2]
    ...

(2)モデル

モデルの選択に関しては、一般的な中国語と英語のテキスト認識モデル PP-OCRv3_rec を使用することをお勧めします。テキスト認識モデルのトレーニング方法の詳細については、OCR テキスト認識モデルのトレーニング チュートリアルおよびPP -OCRv3を参照してください。テキスト認識モデルのライブラリと構成ファイル

2.2 KIE モデルのトレーニング

認識されたテキストから重要な情報を抽出するには、主に 2 つの方法があります。

(1) SER を直接使用してキー情報の種類を取得します。たとえば、ID カードのシナリオでは、「名前」と「Zhang San」をそれぞれ と としてマークしname_keyますname_value最終的に認識されたカテゴリは、name_value対応するテキスト フィールドであり、これが必要な重要な情報です。

(2) SER と RE の併用: この方法では、まず SER を使用して画像テキスト コンテンツ内のすべてのキーと値を取得し、次に RE メソッドを使用してすべてのキーと値をペアにして、これにより、キー情報の抽出が完了します。

2.2.1 SER

ID カードのシナリオを例にとると、キー情報には通常姓名性别、 、民族などが含まれます。以下の図に示すように、対応するフィールドを特定のカテゴリとして直接マークできます。

知らせ:

  • otherラベル付けプロセス中に、KIE キー情報に関連しないテキストコンテンツについては、背景情報に相当するカテゴリーとしてマークする必要があります。たとえば、ID カードのシナリオでは、性別情報に注意を払わない場合、「gender」と「male」の 2 つのフィールドのカテゴリをマークできますother
  • ラベリング処理では、テキスト行単位でラベリングする必要があり、単一文字の位置情報をラベリングする必要はありません。

データ量の観点から言えば、一般的に、比較的固定されたシーンの場合、約50 枚のトレーニング ピクチャで許容可能な結果が得られ、PPOCRLabelを使用してKIE ラベル付けプロセスを完了できます。

モデルに関しては、PP-StructureV2 で提案されている VI-LayoutXLM モデルを使用することを推奨します。LayoutXLM モデルをベースに改良され、視覚的特徴抽出モジュールが削除されています。基本的に精度が損なわれない場合、モデル推論速度がさらに向上しました。その他のチュートリアルについては、「VI-LayoutXLM Algorithm Introduction」および「KIE Key Information Extraction Tutorial」を参照してください。

2.2.2 存在 + RE

この処理には主にSERとREの2つの処理が含まれます。SER ステージは主にドキュメント画像内のすべてのキーと値を識別するために使用され、RE ステージは主にすべてのキーと値を照合するために使用されます。

ID カードのシナリオを例にとると、キー情報には通常姓名性别、 、民族などのキー情報が含まれます。SER 段階では、すべての質問 (キー) と回答 (値) を特定する必要があります。コールアウトを以下に示します。各フィールドのカテゴリ情報(フィールド)は、label質問、回答、その他(抽出するキー情報に関係のないフィールド)です。

RE フェーズでは、次の図に示すように、各フィールドの ID と接続情報をマークする必要があります。

各テキスト行フィールドには、テキスト行の一意の識別子を記録するためのフィールド情報をid追加する必要があります。同じ画像内で異なるテキスト内容を繰り返すことはできません。異なるテキスト間の接続情報を記録するリストです。たとえば、フィールド「Birth」の ID が 0、フィールド「1996 年 1 月 11 日」の ID が 1 の場合、それらはすべて [[0, 1]] でマークされ、ID を持つフィールドが同じであることを示します。 =0 と id=1 はKey-Value 関係で構成されます (名前、性別、その他のフィールドも同様であるため、ここでは詳細を説明しません)。linkingidlinkinglinking

知らせ:

  • タグ付けプロセス中に、値が複数の文字である場合、リンクにキーと値のペアを追加できます。[[0, 1], [0, 2]]

データ量の観点から言えば、一般的に、比較的固定されたシーンの場合、約50 枚のトレーニング ピクチャで許容可能な結果が得られ、PPOCRLabel を使用して KIE ラベル付けプロセスを完了できます。

モデルに関しては、PP-StructureV2 で提案されている VI-LayoutXLM モデルを使用することを推奨します。LayoutXLM モデルをベースに改良され、視覚的特徴抽出モジュールが削除されています。基本的に精度が損なわれない場合、モデル推論速度がさらに向上しました。その他のチュートリアルについては、「VI-LayoutXLM Algorithm Introduction」および「KIE Key Information Extraction Tutorial」を参照してください。

3. 参考文献

[1] Katti AR、Reisswig C、Guder C、他。Chargrid: 2D ドキュメントの理解に向けて [J]。arXiv プレプリント arXiv:1809.08799、2018。

[2] Xu Y、Li M、Cui L、他。Layoutlm: ドキュメント画像理解のためのテキストとレイアウトの事前トレーニング[C]//知識発見とデータ マイニングに関する第 26 回 ACM SIGKDD 国際会議の議事録。2020: 1192-1200。

[3] Xu Y、Xu Y、Lv T、他。LayoutLMv2: 視覚的に豊かな文書理解のためのマルチモーダル事前トレーニング[J]。arXiv プレプリント arXiv:2012.14740、2020。

[4]: Xu Y、Lv T、Cui L、他。Layoutxlm: 多言語の視覚的に豊富な文書理解のためのマルチモーダル事前トレーニング[J]。arXiv プレプリント arXiv:2104.08836、2021。

[5] Li Y、Qian Y、Yu Y 他。StrucTexT: マルチモーダル トランスフォーマーを使用した構造化テキストの理解[C]//マルチメディアに関する第 29 回 ACM 国際会議の議事録。2021: 1912 ~ 1920 年。

[6] Liu X、Gao F、Zhang Q、他。視覚的に豊富なドキュメントからマルチモーダル情報を抽出するためのグラフ畳み込み[J]。arXiv プレプリント arXiv:1903.11279、2019。

[7] Sun H、Kuang Z、Yue X、他。重要な情報抽出のための空間デュアルモダリティグラフ推論[J]。arXiv プレプリント arXiv:2103.14470、2021。

[8] Zhang P、Xu Y、Cheng Z、他。Trie: 文書理解のためのエンドツーエンドのテキスト読み取りと情報抽出[C]//第 28 回 ACM 国際マルチメディア会議議事録。2020: 1413-1422。

参考リンク

https://github.com/PaddlePaddle/PaddleOCR/tree/release/2.7

さらに質の高いコンテンツについては、公式アカウント「Ting、人工知能」に注目してください。一部の関連リソースと質の高い記事が無料で提供されます。

おすすめ

転載: blog.csdn.net/sinat_39620217/article/details/132651810