[2023 CSIG 垂直ドメイン大規模モデル] 大規模モデルの時代に、IDP インテリジェント文書処理の分野で OCR の統合を完了するにはどうすればよいでしょうか?

2023年12月28日から31日まで、中国画像グラフィック学会主催の第19回CSIG若手科学者会議が中国・広州で盛大に開催され、学界や経済界の専門家や若手学者が集まり、次のような趣旨の会議が開催されました。国家戦略のニーズに沿って、最新の最先端技術やホットな分野に焦点を当て、画像グラフィックス分野の最先端の問題を共同で議論し、最新の研究成果や革新的なアイデアを共有し、学術研究会を開催します。垂直分野における大規模モデルに関する特別セッション Hehe Information Intelligence Technology Platform Division 副社長、マネージャ兼シニアエンジニアの Ding Kai 博士が、「ドキュメント画像大規模モデルの思考と探索」というテーマで報告を行ってくれました。

この記事では、以下の問題に焦点を当て、テーマレポートにおける大規模モデル時代のインテリジェント文書画像処理分野における研究課題と深い考察を共有します。

  • GPT4-V Gemini に代表される大型モデルは、IDP 分野の技術ソリューションや研究開発パラダイムにどのようなインスピレーションをもたらすことができるでしょうか?
  • 大規模モデルの利点から学び、高い精度と強力な一般化を備えた統合 OCR モデルを提案できるでしょうか?
  • LLM を文書認識分析エンジンとより適切に組み合わせて、IDP 分野の中核問題を解決できるでしょうか?

1. ピクセルレベルOCR統合モデル:UPOCR

UPOCR は、2023 年 12 月に和和信息大学と華南理工大学文書画像分析・認識・理解共同研究室によって提案されたピクセルレベルの OCR 統合モデルです。UPOCR は、Visual Transformer (ViT) のエンコーダ/デコーダ アーキテクチャに基づいており、さまざまな OCR タスクを画像から画像への変換パラダイムに統合し、学習可能なタスク キューを導入して、エンコーダによって抽出された普遍的な特徴表現をタスクにプッシュします。 -特定のスペース、デコーダがタスクを認識するようにします。実験の結果、このモデルはさまざまなタスクのモデリング機能を備え、テキスト消去、テキストのセグメンテーション、改ざんテキストの検出などのピクセルレベルの OCR タスクを同時に実現できることがわかりました。

1.1. なぜ UPOCR が提案されるのですか?

一般文字認識 (OCR) の分野は現在、多くの大きな問題に直面しており、実際にはさまざまな応用分野での幅広い応用が制限されています。

  1. タスク固有モデルの断片化: OCR フィールド研究では多くのタスク固有モデルが登場していますが、各モデルは特定のフィールドに対してのみ最適化されています。モデルは断片化しすぎており、異なるタスク間で共同して使用するのは困難です。クロスドメインおよびマルチ-シーンの多様性は大幅に制限されます。
  2. 統一インターフェイスの欠如: 一部の既存の一般モデルは、特定のインターフェイスや VQGAN などのデコード メカニズムに依存しています。この依存により、ピクセル空間におけるモデルの柔軟性と適応性が制限され、さまざまなタスクを関連付けて実装することが困難になります。
  3. ピクセル レベルの OCR の課題: 現在のモデルは、ピクセル レベルのテキスト シーケンスを生成する際に依然として課題に直面しています。これは、テキスト生成には意味の理解だけでなく、ピクセル レベルの詳細も考慮する必要があるためであり、ピクセル レベルのテキストを生成するモデルの能力を向上させることは、依然として重要な研究の方向性です。

1.2. UPOCR とは何ですか?

UPOCR は一般的な OCR モデルです。華南理工大学チームの AAAI 2024 合格論文でバックボーン ネットワークとして ViTEraser を使用し、MIM とセグメンテーションに基づく自己教師ありドキュメント画像の事前トレーニング手法である SegMIM も活用しています。自己教師付き事前トレーニング用のマップ ガイダンスを作成し、統合トレーニング用にテキスト消去、テキスト セグメンテーション、改ざんテキスト検出などの 3 つの異なるタスク プロンプト ワードを組み合わせます。
ここに画像の説明を挿入します

モデルがトレーニングされた後は、特別な微調整を必要とせずに下流のタスクに直接使用できますモデルは主に、統一パラダイム、統一アーキテクチャ、統一トレーニング戦略の 3 つの側面から研究されます。

1.2.1. 統一パラダイム

ここに画像の説明を挿入します
図に示すように、著者は、さまざまなピクセルレベルの OCR タスクを RGBtoRGB 変換問題に変換する、OCR タスクの統一パラダイムを提案しています。これらのタスクの目標は異なりますが (画像生成やセグメンテーションなど)、共有特徴空間で動作するようにすべて統合できます。

  1. テキスト消去タスク: テキスト消去タスクの場合、出力は入力に対応するテキストが除去された画像であり、RGBtoRGB タスクに属します。
  2. テキスト セグメンテーション タスク: テキスト セグメンテーションは、各ピクセルを前景 (つまり、テキスト ストローク) または背景に割り当てることを目的としています。統一された画像間変換パラダイムの下で、UPOCR は、生成された RGB 値を比較することにより、白と黒の色で RGB 画像を予測します。カテゴリを決定するための事前定義された前景 RGB 値。
  3. 改ざんテキスト検出タスク: 改ざんテキスト検出タスクは、改ざんテキスト、実際のテキスト、および背景カテゴリのピクセルごとの分類として定義され、UPOCR によって赤 (255, 0, 0) と緑 (0, 0, 255, 0) が割り当てられます。 ) と青 (0、0、255) の色。推論中、各ピクセルのクラスは、予測された RGB 値とこれら 3 つの色との距離を比較することによって決定されます。

1.2.2. 統合アーキテクチャ

ここに画像の説明を挿入します

図に示すように、著者らは、ViT ベースのエンコーダ/デコーダを採用することで、さまざまなピクセルレベルの OCR タスクを処理するための統合された画像間変換パラダイムを実装しました。このうち、エンコーダ/デコーダ アーキテクチャはバックボーン ネットワークとして ViTEraser を使用しており、エンコーダには 4 つの連続ブロックが含まれており、各エンコーダ ブロックにはダウンサンプリング用のブロック埋め込み層と Swin Transformer v2 ブロックが含まれています。デコーダ部分は 5 つの連続ブロックで構成され、各デコーダ ブロックにはアップサンプリング用のブロック分割層と Swin Transformer v2 ブロックが含まれています。

さらに、著者らは、エンコーダ/デコーダ アーキテクチャに学習可能なタスク キューを導入し、対応するキューがエンコーダによって生成される隠れた特徴の各ピクセルに追加され、エンコーダによって生成される一般的な OCR 関連の表現をタスク固有の領域に押し上げます。 。次に、デコーダは、調整された潜在特徴をタスク固有の出力画像に変換します。このアーキテクチャに基づいて、UPOCR は最小限のパラメーターと計算オーバーヘッドで複数のタスクを同時に簡単かつ効果的に処理できます。

1.2.3. 統合トレーニング戦略 統合トレーニング戦略

ここに画像の説明を挿入します

モデルは画像から画像への変換パラダイムを使用してトレーニングされるため、トレーニング プロセス中にモデル最適化の目標として考慮する必要があるのは、ピクセル空間および特徴空間における生成された予測画像と実際の画像の差を最小限に抑えることだけです。タスク間の違いを考慮します。

  1. ピクセル 空間の損失: ピクセル空間の差は、出力イメージと実際のイメージの間の L1 距離によって測定されます: L pix = ∑ i = 1 3 α i ∥ I out i − I gti ∥ 1 L_{pix}=\sum_ { i=1}^{3} \alpha_{i}\left\|\mathbb{I}_{\text {out }}^{i}-\mathbb{I}_{gt}^{i}\そうです \|_{1}Lピクス_ _=i = 13ある私は 外 私はgt _私は 1,その中私は \mathbb{I}_{out}^{i} を外します_ _私は出力イメージを表します、I gti \mathbb{I}_{gt}^{i}gt _私は実像を表します。
  2. 特徴空間の損失: 実画像の生成に関連するタスクの場合、出力画像と実画像を特徴空間で位置合わせすることも必要です。L feat = 0.01 × L per + 120 × L sty L_{\text {feat }} =0.01 \times L_{\text {per }}+120 \times L_{\text {sty }}L偉業 =0.01×Lあたり +120×Lものもらい 
  3. 全体的な損失: モデルの全体的な損失は、ピクセル損失と特徴損失の合計です: L total = L pix + L feat L_{\text {total }}=L_{pix}+L_{\text {feat }}L合計 =Lピクス_ _+L偉業 

1.3. UPOCR はどの程度効果的ですか?

ここに画像の説明を挿入します

実験結果は上の 3 つの表に示されており、左上の表はテキスト消去実験の比較です、消去分野専用の微調整モデルと比較しても、UPOCR 統合モデルはほとんどの指標で SOTA 手法を上回っています。 ; 右上の表 この表はテキスト画像セグメンテーション実験の比較です. UPOCR はすべての指標において単一タスク専用のセグメンテーション手法よりも優れていることがわかります; 左下の表はテキスト改ざん検出と UPOCRも好成績を収めた。図 5 は、UPOCR モデルによって設計されたタスク関連のプロンプトが、さまざまなタスクを非常によく区別できることを示しています。次の図は、既存のサブタスクの SOTA メソッドとのテキスト消去、セグメンテーション、および改ざん検出の視覚的な比較です。
ここに画像の説明を挿入します

要約すると、UPOCR は、シンプルで効果的な統合ピクセル レベル OCR インターフェイスを提案します。これは、学習可能なタスク プロンプトを通じてさまざまなタスクを処理する ViT ベースのエンコーダー/デコーダーを採用し、テキスト削除、テキスト セグメンテーションで優れたパフォーマンスを示し、非常に高いパフォーマンスを示しています。改ざんされたテキストの検出などのタスクのパフォーマンス。

2. OCR統合モデルに関する最先端の研究の概要

2.1. ドーナツ: OCR なしで文書を理解するためのトランスフォーマー モデル

論文アドレス: https://link.springer.com/chapter/10.1007/978-3-031-19815-1_29

プロジェクトアドレス: https://github.com/clovaai/donut
ここに画像の説明を挿入します

ドーナツ モデルは、Transformer アーキテクチャに基づいた新しい OCR フリー VDU モデルです。ドーナツ モデルは、最初に単純なルールを通じてレイアウトを生成し、次にいくつかの画像レンダリング技術を適用して実際のドキュメントをシミュレートします。これは、事前の 2 段階で実行されます。 -トレーニングと微調整。事前トレーニング段階では、モデルは視覚言語モデリングに IIT-CDIP データセットを使用し、画像からテキストを読み取る方法を学習します。微調整フェーズでは、ドキュメントの分類、ドキュメント情報の抽出、ドキュメントの視覚的な質問応答などの下流タスクを解決するために、JSON 形式で出力を生成するようにモデルがトレーニングされます。他の OCR ベースのモデルと比較して、Donut は OCR エンジンに依存する必要がないため、高速でモデル サイズが小さくなります。複数の公開データセットでの実験により、Donut が文書分類タスクにおいて高度なパフォーマンスを発揮することが実証されました。

2.2. NouGAT:文書画像から文書シーケンスへの出力を実現

論文アドレス: https://arxiv.org/abs/2308.13418

プロジェクトアドレス: https://github.com/facebookresearch/nougat
ここに画像の説明を挿入します

Nougat モデルは、Swing Transformer および Transformer Decoder を介してドキュメント イメージからドキュメント シーケンス出力を実装する OCR モデルです。このモデルは、OCR フリーの Transformer に基づくエンドツーエンドのトレーニング方法を使用し、事前トレーニングとファイン トレーニングを使用してトレーニングされます。チューニング。事前トレーニング段階では、Donut は文書画像とそのテキスト注釈を使用して事前トレーニングされ、画像と前のテキストのコンテキストを組み合わせて次の単語を予測することでテキストを読む方法を学習します。微調整フェーズでは、Donut は下流のタスクに基づいてドキュメント全体を理解する方法を学習します。さまざまな VDU タスクとデータセットに関する広範な評価により、Donut の強力な理解能力が実証されています。

2.3. SPTS v3: SPTS に基づく統合 OCR モデル

論文アドレス: https://arxiv.org/abs/2112.07917

プロジェクトアドレス: https://github.com/shannanyinxiang/SPTS
ここに画像の説明を挿入します

SPTS (Single-Point Text Spotting の正式名) は、シングルポイント テキスト認識テクノロジです。その主な革新は次のとおりです。このメソッドは、トレーニングに非常に低コストのシングルポイント アノテーションを使用して、テキスト検出タスクを言語モデリング タスクに形式化します。シーンテキスト認識モデルをトレーニングするには、単一点で各テキストインスタンスにラベルを付ける必要があります。SPTS は、結果をシーケンシャル トークンとして単純に生成する自己回帰 Transformer フレームワークに基づいており、複雑な後処理や排他的なサンプリング ステージを回避します。SPTS は、このような簡潔なフレームワークに基づいて、さまざまなデータセットに対して高度なパフォーマンスを示します。

3. 大型モデル時代のインテリジェントな文書処理アプリケーション

3.1. LLM と文書認識分析の適用

大規模言語モデルは自然言語テキストを理解し、コンテキストを理解する機能を備えています。文書認識および分析アプリケーションでは、文書の理解に関連する作業が大規模言語モデルに引き渡され、章レベルの文書の自動理解と分析が役立ちます。コンテキスト内の関係、エンティティ認識、センチメント分析など、ドキュメントの内容をよりよく理解するためのシステム。現在、最も一般的で広く普及しているアプリケーションには、検索拡張生成 (RAG) と文書の質問と回答が含まれます。

ここに画像の説明を挿入します

  1. 検索強化型生成: 大量の文書から関連情報を取得し、生成的な方法でより詳細で正確な回答を提供することを目的とした大規模な言語モデルがすでに存在します。これは、情報検索シナリオにおいて重要な応用価値があります。
  2. ドキュメント Q&A : LLM を直接使用してドキュメント Q&A システムを構築することができ、ユーザーは質問することでドキュメント内の関連情報を取得でき、法的文書の解釈、技術マニュアルの照会、ナレッジ ベースの理解などのシナリオに適用できます。 。

3.2. インテリジェント文書処理アプリケーション製品

インテリジェント文書処理 (IDP) は、人工知能と機械学習テクノロジーを使用して、文書を自動的に分析および理解します。文書の内容を識別、解析、理解し、実用的なデータまたは情報に変換することで、ビジネス プロセスを改善します。自動化の程度により、作業効率が向上し、コストを削減します。

丁凱博士はまた、Hehe Information の文書画像認識および分析製品の共有をもたらしました。このようなインテリジェントな文書処理技術に基づいて、この製品は大量の文書を迅速かつ正確に処理でき、銀行、保険、物流、サプライチェーン、および顧客を支援します。サービス より効率的で信頼性の高いビジネス プロセス管理を含む、多くの分野でのデジタル トランスフォーメーション。

ここに画像の説明を挿入します

Hehe Information TextIn インテリジェント テキスト認識製品は、自社開発のテキスト認識技術、コンピューター グラフィックス技術、インテリジェント画像処理エンジンに基づいており、紙文書や写真のテキスト情報をコンピューター可読テキスト形式に迅速に変換でき、より優れた文書管理ソリューションを提供します文書の電子化、オフィス文書/レポート認識、教育用テキスト認識、速達受領書認識、エッジトリミング強化、曲がり補正、影処理、印鑑検出、手書き消去などの多くのシナリオで役立ちます。企業はデジタル変革と自動管理を実現します。

ここに画像の説明を挿入します

GPT4-Vに代表されるマルチモーダルラージモデル技術は、文書認識・解析分野の技術進歩を大きく前進させましたが、画像文書処理分野の課題を完全に解決したわけではなく、私たちが取り組むべき課題はまだ多くあります。 IDP 問題をより適切に解決する大規模モデルの機能については、さらに考えて調査する価値があります。
ここに画像の説明を挿入します

4. 記事の最後にあるお楽しみ抽選会

ふふふ、インフォメーションは皆様にお得な情報をお届けしています!年次アンケートに記入してください: https://qywx.wjx.cn/vm/exOhu6f.aspx . 1 月 12 日、10 名様にランダムに選ばれ、50 元の JD カードが贈られます。ぜひご参加ください。

おすすめ

転載: blog.csdn.net/air__Heaven/article/details/135407255