パラダイム業界の実践を迅速に共有! Paddle UIE-XとIntel OpenVINOによるクロスモーダル文書情報抽出の実現

最近、Prompt パラダイムが大きな注目を集めており、実際、そのアイデアは業界ですでにいくつかの成功事例を生み出しています。中国科学院ソフトウェア研究所とBaiduは共同で、多くのタスクを統合する汎用情報抽出技術であるUIE(Universal Information Extraction)を提案した。これまでUIEシリーズはUIE、UIE-X、UIE-sentaの3モデルをリリースしてきました。Prompt のアイデアに基づいた UIE シリーズ モデルは、その強力なゼロサンプルおよび少量サンプル機能とマルチタスクの統合モデリング機能により、情報抽出、センチメント分析、その他のタスクに業界の最初の選択肢となっています。

 
UIEシリーズ機種(UIE、UIE-X、UIE-senta)基本情報表

この業界の実践例は、医療文書情報の抽出を実現するための UIE-X と OpenVINO に基づいており、Intel x86 プラットフォーム上での UIE-X モデルの展開を最適化し、業界実装の敷居を下げるための完全なソリューションを提供し、移行可能です。金融シーンなどの情報抽出アプリケーションまで。

プロジェクトリンク

https://aistudio.baidu.com/aistudio/projectdetail/6335929?contributionType=1

シーンの難易度

  • ドキュメントの種類やフォーマットは多種多様で、文字や画像、レイアウト情報をどのように効率的に組み合わせてモデリングするかが大きな課題となります。
  • シーケンス アノテーションに基づく従来の抽出スキームは、大量のドメイン アノテーション データに依存しており、コストが非常に高くなります。
  • 多くの場合、同じビジネス内にエンティティや関係など複数の情報抽出要件があり、個別のモデリングとトレーニングのコストが高くなります。

機種選定

プレーン テキスト コンテンツに加えて、クロスモーダル ドキュメントから情報を抽出して処理する必要がある企業のビジネス シナリオも多数あります。たとえば、医療分野では、多数の健康診断レポート、医療レポート、記録、請求書、CT画像などの医療画像データ。クロスモーダル文書情報抽出のニーズを満たすために、PaddleNLP は Wenxin ERNIE-Layout クロスモーダル レイアウト強化事前トレーニング モデル、統合された PaddleOCR の PP-OCR、PP-Structure レイアウト分析、およびその他の主要な機能に基づいています。大量の情報抽出アノテーション セット、トレーニング、およびオープン ソースの UIE-X - テキストとドキュメントの両方の抽出機能、多言語、オープン ドメインを備えた最初の情報抽出モデル。

この事例は医療分野におけるUIE-Xの実戦であり、少量のアノテーションとモデルの微調整により、カスタマイズされたシナリオのエンドツーエンドの文書情報抽出機能を備えることができます。インテリジェントな文書情報抽出を実現するために、「スキーマの定義」、「タスクフローの定義」、「情報抽出する文書の指定」というスキームを採用します。

  • 最初のステップは、情報抽出のタスクと、プロンプト パラダイムに基づいて抽出される情報を定義することです。
  • 2 番目のステップは、カスタム モデルの読み込みを含むタスクフローを定義することです。task_path を通じてモデルの重みファイルのパスを指定します。これには、トレーニングされたモデルの重みファイル model_state.pdparams が含まれている必要があります。
  • 3 番目のステップは、情報抽出用のドキュメントが配置されているパス doc_path を指定し、情報抽出を実行します。

フライング パドルは、大規模で選択されたモデル ライブラリを通じてユーザーのモデル選択の難しさを大幅に軽減し、時間コストを削減し、迅速な反復を実現します。実装段階では、モデルの展開にインテル OpenVINO™ ツールキットが使用され、一般的な x86 プラットフォームでのネットワーク実行パフォーマンスを最大限に発揮し、ソリューションの全体的なコストを最適化し、ソリューションの推論パフォーマンスを向上させます。

チューニング戦略

  • OpenVINO の自動デバイスで提供されるさまざまなパフォーマンス ヒント戦略に基づいて、さまざまな使用シナリオに従ってマルチスレッド構成が実行され、推論スループットの向上または遅延の削減が行われます。
  • Intel CPU および GPU でダイナミック入力シェイプをサポートし、情報抽出中のソリューションの推論パフォーマンスを向上させ、推論遅延を確保しながらソリューションの全体コストを最適化します。

モデルの展開

このプロジェクトの最終的な展開環境は、Intel x86 ハードウェア プラットフォーム デバイスです。この例では、開発の利便性を考慮して、Python を使用して開発環境をデプロイします。医療文書の画像を入力し、情報を抽出するためのスキーマを定義することにより、タスクフロー フレームワークを使用して、UIE-X に基づいたインテリジェントな情報抽出を完了します。

このソリューションは、中国語と英語のプロンプト/スキーマと言語間の抽出をサポートし、カスタム OCR 結果もサポートします。抽出効果を最適化するためにレイアウト パラメーターを構成して、OCR バウンディング ボックス情報を渡します。Paddle AI Studio には完全な使用例と開発手順も用意されており、このチュートリアルを参照してすぐに学習し、実際のプロジェクト用に開発および統合することができます。


医療文書情報抽出導入デモスキーム

友人がサンプル チュートリアルを簡単に適用できるようにするために、OpenVINO エバンジェリストの Wu Zhuo 博士が、6 月の 19:00 にデータの準備、スキーム設計からモデルの最適化、デプロイメントに至る開発プロセス全体の詳細な分析を提供します。 14 日 (水曜日) ステップバイステップで、全員にコーディングの練習を教えます。

フライングパドルパドルパドル

おすすめ

転載: blog.csdn.net/PaddlePaddle/article/details/131208089