革新的な OCR 構造化テクノロジー アプリケーション、Baidu 中国語および英語の OCR 構造化モデル StrucTexT 事前トレーニング モデル

光学式文字認識 (OCR) は、現在最も広く使用されているビジュアル AI テクノロジーの 1 つです。産業用途における OCR テクノロジーの急速な発展に伴い、現実世界のシナリオでは、認識から認識へという OCR に対する新しい要件が提示されています。OCR はテキストを認識するだけでなく、テキストをさらに理解する必要もあります。したがって、カード、請求書、ファイル画像などの豊富なビジュアルデータ内の構造化テキスト情報を迅速かつ正確に分析し、重要なデータを抽出することを目的として、構造化は OCR 産業アプリケーションの中核テクノロジーの 1 つになりつつあります。OCR 構造化テクノロジーは通常、次の 2 種類の高頻度アプリケーション タスクを解決する必要があります。

エンティティ分類: OCR 結果内の事前定義されたエンティティ タグ (「名前」、「日付」など) に対応するテキスト コンテンツを抽出します。

エンティティ接続: テキスト エンティティ間の関係 (キー (キー) と値 (値) のペアを形成しているかどうか、テーブル内の同じ行または列に属しているかどうかなど) を分析します。
ここに画像の説明を挿入

OCR 構造化テクノロジのアプリケーション要件は広範囲に存在します。ビジネス活動において、報告書、契約書、帳票、請求書などの文書を処理することは、日々の事務作業の中で重要な業務となっています。OCR 構造化テクノロジーは、企業が文書や請求書の重要な情報を自動的に理解して識別し、人件費を削減し、業務効率を向上させるのに役立ちます。
ここに画像の説明を挿入

Baidu は、OCR 構造化モデル StrucTexT を提案しました。これは、中国語と英語のフィールドレベルのマルチモーダル機能を、機能強化のための OCR 構造化事前トレーニングに初めて統合し、6 つの OCR 構造化データセットで業界最高の結果を更新することに努めました。同時に、StrucTexT に基づいてデジタル医療請求ソリューションを作成し、企業がペーパーレス オフィスとデジタル変革を達成するのに役立ちます。

業界初の中国語と英語のフィールドレベルのマルチモーダル機能強化された OCR 構造化モデル StrucTexT

既存の OCR 構造化スキームは、テキスト情報抽出方法、画像情報抽出方法、およびマルチモーダル情報抽出方法に分類できます。

1. テキスト情報抽出方法: 自然言語処理に基づいて、画像内のテキスト シーケンスを抽出し、名前付きエンティティ認識テクノロジを使用してテキストの意味エンティティをマークします。

2. 画像情報抽出方法: 検出やセグメンテーションなどのコンピューター ビジョン タスクに基づいて、テキスト エンティティの画像領域を特定します。

3. マルチモーダル情報抽出方法: アーカイブ、請求書、カードなどのリッチビジュアルテキスト画像には、テキスト、画像 (テクスチャ、色、フォントなど)、レイアウト (空間的位置) の複数の属性があります。この種の方法は、モデリングにマルチモーダルな手がかりを包括的に使用し、より良い結果を示します。
ここに画像の説明を挿入

過去 2 年間、マルチモーダル事前トレーニング テクノロジーの恩恵により、OCR 構造化モデルのパフォーマンスと一般化に大きなメリットがもたらされました。しかし、既存の事前学習モデルは主に文字(中国語の単一文字や英語の単語)の粒度でモデル化されており、画像上のテキストの視覚的なテキスト行構造の特徴を無視しており、文書の意味論と視覚的な表現を効率的に表現することが困難です。情報を

この問題を解決するために、Baidu OCR は文字レベルとフィールド レベルでのマルチモーダル事前トレーニング モデル - StrucTexT を提案しています。

1. 最初のフィールドレベルのマルチモーダル機能強化: テキストシーケンスと組み合わせたフィールドレベルのドキュメント構造モデリングを提案し、リッチビジュアルドキュメントをより効果的に理解するためのマスクされたビジュアル言語モデル、フィールド長予測、およびフィールド方向予測を提案します。

2. この効果は、中国語と英語のシーンで総合的に優れています。40,000 以上の中国語と英語の一般的な単語をカバーし、業界最大の 5,000 万件の OCR 中国語と英語シーン データの事前トレーニングを実現し、さまざまなモダリティ間の意味論的な関係を深く掘り下げます。

3. 完全な OCR フィールド分析機能: 二重粒度出力フレームワーク、柔軟なモデリング粒度選択に基づいて、文字情報抽出、フィールド情報抽出、およびフィールド接続予測の 3 つの構造化情報抽出タスクをサポートできます。

4. 単一のモデルで複数のダウンストリーム タスクをサポートします。中国語と英語が混在する OCR シナリオをサポートし、単一のモデルで複数のダウンストリーム タスクを並行して処理できます。

StrucTexT は、二重粒度表現に基づくマルチモーダル情報抽出モデルです。文字の粒度を使用してテキストをモデル化することに加え、StrucTexT はフィールドを使用してドキュメントの視覚的な手がかりを整理し、文字とフィールドの間の一致関係を構築して画像とテキストの特徴を調整します。マルチモーダル情報表現の観点から、StrucTexT はテキスト、画像、レイアウトのマルチモーダル特徴を構築し、「マスクされた視覚言語モデル」、「フィールド長予測」、「フィールド方向予測」の 3 つの自己教師あり事前トレーニング タスクを提案しています。モーダル機能の相互作用により、モデルがモダリティ間の情報の関連性を学習できるようになり、ドキュメントの包括的な理解を強化します。さらに、StrucTexT は中国語と英語のバイリンガル エンコーディングをサポートしています。二重粒度表現の下で、モデルはキャラクターとフィールド粒度の情報抽出タスクを実現し、柔軟なモデル選択とシーン適応を実現できます。
ここに画像の説明を挿入

多粒度モデリング + マルチモーダル機能 = StrucTexT の全体的な主要な効果

StrucTexT は、多粒度モデリングとマルチモーダル機能強化に基づいて、3 つの OCR 構造化タスク シナリオと 4 つのデータ セットの 6 つのリストで業界をリードする結果を達成しました。

1. 文字情報抽出タスク: StrucTexT は事前学習モデルに基づく文字粒度分類手法を使用し、中国語の試験用紙データセット EPHOIE に対して 99.30% という優れた効果を達成しました。
ここに画像の説明を挿入

2. フィールドエンティティ分類:StrucTexTはフィールド特徴量を利用してエンティティを分類し、請求書情報抽出セットSROIE、英語帳票データセットFUNSD、中国語帳票データセットXFUND-CHNの3つのデータセットに対してSOTAを実現します。後の 2 つのタスクは同じ微調整モデルを使用して、中国語と英語のアプリケーション シナリオの統合を実現していることに言及する価値があります。

その中で、StrucTexT の SROIE における予測結果フィールド F1 値は 98.70% であり、リストで 1 位にランクされています。
ここに画像の説明を挿入
FUNSD および XFUND データセットでは、StrucTexT は事前定義された 4 種類のエンティティ カテゴリを分類し、2 つのデータセットの大規模モデルの F1 値はそれぞれ 87.56% と 92.29% に達します。
ここに画像の説明を挿入
3. エンティティ関係予測: 意味エンティティ間に接続関係があるかどうかを判断する StrucTexT は FUNSD および XFUN データセットで 8% 以上の大きなリードを持っており、SOTA インデックスを更新しています。
ここに画像の説明を挿入

StrucTexT の強力なサポートにより、医療請求シナリオにおける複雑な請求書の認識も獲得しました。

医療保険請求は、OCR 構造化情報抽出の重要なアプリケーション シナリオです。中国の商業医療保険の過去10年間の年平均成長率は28%を超え、2020年の健康保険の保険料収入は8000億を超える見込みだ。中国銀行保険監督管理委員会は、2025年までに商業医療保険市場が2兆元を超えるとの見通しを示した。健康保険事業の急速な発展に伴い、保険会社は増加する請求事件に対処しなければなりません。

従来の保険会社は手動引受業務を使用しており、保険請求担当者は十数から数十の項目に及ぶ内容情報をチケットに手動で入力します。保険金請求の入力および審査チームの規模は年々増加しています。多額のコスト投入が同社の経営に多大な圧力をもたらしている。ビジネス効率を向上させ、運用コストを削減するために、人工知能テクノロジーを使用してインテリジェントな保険金請求決済を実現することは、保険会社にとって保険金請求決済プロセスを改善するための最良の支援となっています。

保険金自動決済を実現するには、医療画像情報を正確に特定することが鍵となります。ただし、医療画像認識シナリオは比較的複雑であり、OCR による構造化情報の正確な抽出は、長年業界を悩ませてきた問題です。

1. 請求書にはさまざまな種類があり、一般的なリスト、請求書、検査報告書だけでも数百もの種類があります。

2. 請求書の形式が異なります。各省や市の病院では出力レイアウトが異なり、形式が複雑です。医療機関では便宜上、仕様通りに印刷されないことが多く、コンテンツのレイアウトは非常にランダムで、オクルージョン、オフセット、文字の重なりなどの干渉が強いです。

3. 不規則な画像収集:健康保険はCエンドサービスであり、ユーザーの写真撮影行動が標準化されておらず、書類の破損、曲がり、変形などの問題があり、アップロードされる画像の品質も高くありません。

4. レセプトの組版が複雑:レセプトには中国語、英語、数字、特殊記号など複数の文字が混在しており、文字認識が困難です。
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
上記の課題に対し、百度は業界をリードするOCR認識能力とStrucTexT OCR構造技術力をベースに、大手保険会社と協力してデジタル医療請求ソリューションを構築してきました。StrucTexT モデルは、汎用形式のさまざまな複雑な医用画像に対する OCR 構造化機能により、業界のビジネス用語を組み合わせることで、医用画像から構造化された情報を抽出する機能を開発し、上位層で専門用語の標準化された出力を実行して、引受システムのインテリジェンス。現在、医療画像OCRの仕組みを備えた医療保険金決済ソリューションは、多くのお客様の実際の保険金決済・保険引受業務に導入されており、保険業界の大手お客様では回収エネルギー効率が4倍に向上しました。

医療請求書の OCR 構造化:
ここに画像の説明を挿入
検査診断レポート OCR 構造化:
ここに画像の説明を挿入
経費精算 OCR 構造化:
ここに画像の説明を挿入
医療検査報告書 OCR 構造化:
ここに画像の説明を挿入
退院概要 OCR 構造化:
ここに画像の説明を挿入

結論

2020年9月22日、中国は第75回国連総会で「カーボンニュートラルを達成するために、中国は国家として決定した貢献を増やし、より強力な政策と措置を採用する」と提案した。OCR構造化は、情報の電子化やオフィスのインテリジェンスを実現するための基本的なコア技術です。日常業務では、大量のカード、請求書、豊富な文書画像データが存在し、OCR による識別と構造化された入力が必要となります。中国語と英語の現場レベルのマルチモーダル機能を強化したOCR構造化モデルStrucTexTをベースに、社会各層の事務処理入力や各種文書証明書をデジタル入力することができます。財団。

現在、StrucTexT モデルは PaddlePaddle で公開されており、StrucTexT の技術的な詳細については、次のリンクを使用できます。

StrucTexT 論文のアドレス:

https://arxiv.org/abs/2108.02923

StrucTexT オープン モデル:

https://github.com/PaddlePaddle

おすすめ

転載: blog.csdn.net/PaddlePaddle/article/details/122409689#comments_27457509