AI OCR シナリオにおける GPU プーリングの適用

1. AI OCRの歴史と考え方 

OCR (光学文字認識) とは、光学的方法を使用して紙文書内のテキストを白黒のドット マトリクス画像ファイルに変換し、明暗のパターンを検出してその形状を判断し、文字認識方法を使用してその形状を黒と白に変換することを指します。白いドット マトリックス画像ファイルコンピュータ テキストへの翻訳プロセス。

AlexNet が 2012 年に ImageNet コンペティションで優勝して以来、深層学習手法は、画像とビデオの分野で従来のアルゴリズムを大幅に上回り始めています CV (コンピューター ビジョン) および NLP (自然言語処理) 畳み込みニューラル ネットワークと長期短期学習に基づく手法メモリはOCRの分野にも拡大し始めています。 AI OCR システムでは、人工ニューラル ネットワークは主に特徴抽出器と分類器として機能します。入力は文字画像で、出力は認識結果です。認識率は非常に高く、コストを費やす必要はありませんキャラクターのデザインに多くの時間を費やしています。

OCR 処理は、画像前処理、テキスト検出 (Detection)、テキスト認識 (Recognition) の 3 つの主要なステップに分かれています。

画像前処理は、処理対象の元の画像に対していくつかの補正操作を実行するために使用され、その後の検出と認識の困難さを軽減します。たとえば、画像のコントラストの調整、回転と位置合わせ、部分的なトリミングの実行、折り目やインク ドットなどの干渉情報のフェードアウトなどを行います。ほとんどの既存の深層学習認識アルゴリズムの具体的なプロセスには、画像補正、特徴抽出、シーケンス予測などのモジュールが含まれており、そのプロセスは図に示すとおりです。

ファイル検出アルゴリズム (CTPN) は、ECCV 2016 で提案されたテキスト検出アルゴリズムです。これは現在最も広く流通しており、影響力のあるオープンソースのテキスト検出モデルであり、水平またはわずかに傾いたテキスト行を検出できます。 CTPN は、CNN と LSTM ディープ ネットワークを組み合わせて、複雑なシーンで水平方向に分散されたテキストを効果的に検出します。 CTPN モデルは主に畳み込み層、Bi-LSTM 層、全結合層の 3 つの部分で構成されており、その構造は次の図に示されています。

テキスト認識の場合、CRNN ネットワーク (リカレント畳み込みニューラル ネットワーク) を使用する技術的アイデアは、深い畳み込みを使用して基本的な画像特徴を生成し、次に Bi-LSTM リカレント ネットワーク (双方向の長期短期記憶ネットワーク、文脈的意味情報)を使用して時間的特徴トレーニングを実行し(このステップでは、効果を効果的に改善するためにテキスト シーケンスの前後の特性を使用します)、最後に CTC 損失関数を導入してエンドツーエンドの可変長シーケンス認識を実現し、問題を解決します。トレーニング中に文字が整列しない問題。 CRNN ネットワーク構造は、下から順に、畳み込み層、循環層、転写層の 3 つの部分で構成されます。その構造を次の図に示します。

2. AI OCR は企業のコスト削減と効率の向上に役立ちます

従来の財務償還シナリオでは、企業の従業員は毎日の旅行代金の償還を行う際に、電車のチケット、宿泊料金の請求書、エージェント情報などの情報をシステムに手動で入力する必要があります。次に、会計担当者は、従業員が入力した情報に基づいて、従業員のランクが償還基準に適合しているかどうかを確認します。従来、情報を手入力する方法では、従業員が情報の正確性や完全性を何度も確認する必要があり、同時にレビュー担当者も手作業での校正に多くの時間を費やす必要があり、作業効率に大きな影響を与えていました。

現在、企業のニーズが新たな発展段階にあることから、人工知能やその他のテクノロジーを活用して企業の効率向上とコスト削減を支援することが、企業のデジタル変革の戦略的方向性となっています。

多くの企業は、銀行文書処理や金融請求書の払い戻しなどのシナリオを、元の手動処理方法から AI OCR システムの使用に変換し始めています。ユーザーは、フロントエンド システムを通じて画像ファイルを AI OCR システムにアップロードします。AI OCR システムは、人工知能のディープ アルゴリズム モデルを使用して、非構造化画像の特徴を検出し、タイプを識別し、テキストを抽出し、構造化データを形成します。その後、インテリジェント レビュー システムによって重複がチェックされます。確かに、結果データは最終的にフロントエンド システムに送信され、フォームに自動的に入力されます。 AI OCR システムを使用すると、手動入力の精度が大幅に向上し、プロセスにおける手動エラーが削減され、財務償還シナリオの処理効率と精度が大幅に向上します。

AI OCR システムは、多数のディープ ラーニング モデルを使用します。GPU は AI コンピューティング能力の重要なエンジンとして、並列コンピューティング アーキテクチャを使用して認識の精度と速度を大幅に向上させ、企業に大きく役立ちます。 プロセスの自動化を実現し、人件費を節約し、データ情報を効率的に処理します。

3. AI OCR アプリケーションの問題点 

アプリケーションの数が多く、AI OCR テクノロジに対する需要が増加しているため、大量のコンピューティング能力が必要です。ただし、現在の GPU コンピューティング リソースのほとんどは 1 つのプロジェクトに割り当てられているため、多くの無駄が発生し、運用とメンテナンスの問題が発生します。

  • GPU コンピューティング リソースは現在、物理マシン モードまたは単一ビジネス システムを使用して割り当てられており、割り当ての粒度は粗く、使用率は低くなります。

  • GPU コンピューティング パワー リソースの割り当ては柔軟性が低く、コンピューティング パワー リソースを効果的に共有したり、安全に分離したりすることはできません。

  • 統合された GPU コンピューティング リソース管理プラットフォームがなければ、プラットフォーム チームは GPU リソースの使用状況とタスクの動作状況をタイムリーかつ定期的に把握できません。

  • ライフサイクル中のキャビネット リソース、電力消費などの観点から、GPU コンピューティング リソースの総合的な運用コストは非常に高額です。

  • ハードウェアの調達プロセスはサイクルが長く、ビジネス シナリオの革新的なニーズにタイムリーに対応できません。新しく購入した GPU コンピューティング リソースは、システムのニーズに応じてインストールおよび展開し、セキュリティを強化し、定期的にアップグレードする必要があるため、プラットフォーム チームは機能しません集中的に。

4. GPU プーリングは AI OCR テクノロジーの効率的な適用に役立ちます

Trend Technology は、世界をリードする AI コンピューティング リソース プーリング ソリューションをユーザーに提供し、GPU リソース プーリング機能をデータセンター全体に拡張することに取り組んでいます。

OrionX は、ソフトウェアを使用して AI コンピューティング能力を定義し、物理 GPU を直接呼び出す AI アプリケーションの元のアーキテクチャを破壊し、AI アプリケーションを物理 GPU から切り離すソフトウェア層を追加し、GPU リソース プールを構築することでリソース プール内の GPU リソースを統合します。リソース プールのサイズは、メンテナンスと展開のシステム管理要件に従って決定できます。たとえば、データ センター内のすべての物理 GPU をリソース プールに含めることも、GPU サーバーをリソース プールとして使用することもできます。このアーキテクチャは GPU リソースのプーリングを実現し、ユーザーが GPU リソースを効率的、インテリジェントかつ柔軟に使用できるようにし、コストの削減と効率の向上という目的を達成します。

OrionX AI コンピューティング リソース プーリング ソフトウェア アーキテクチャ図

OrionX は「取得」機能もサポートしています。つまり、OrionX は物理 GPU を持たないサーバー上での仮想マシンまたはコンテナの実行をサポートしています。ユーザーは、仮想マシンやコンテナ内の AI アプリケーションのコードを変更することなく、コンピューター ネットワークを通じて他のサーバー上の GPU リソースを透過的に使用できます。また、OrionX はこの機能を通じて、ユーザーがデータセンターレベルの GPU リソースプールを実現し、AI アプリケーションと GPU 物理リソースの分離を実現し、トレーニング条件を満たしていない純粋な CUP サーバー上で AI アプリケーションを迅速に稼働させることもできます。 GPU カードはトレーニング タスクを完了します。

5. OrionX イノベーションのポイントと利点

1. GPU コンピューティング リソースの使用方法を変更する

ソフトウェア定義のコンピューティング能力の手法により、従来の GPU リソースはカード全体の単位で割り当てられ、1% のコンピューティング能力と 1MB のビデオ メモリを基本単位としてリソースが提供されます。GPU はオンデマンドで割り当てられ、全体的な稼働率が大幅に向上します。

2. GPU コンピューティング リソースのプーリング

GPU クロスノード呼び出しをサポートしているため、ノードに GPU があるかどうかに関係なく、AI アプリケーションをデータセンター内のどこにでも展開できます。 GPUリソ​​ースの供給範囲は単一ノードからネットワークで相互接続されたデータセンター全体にまで及び、管理モデルの最適化と運用・保守業務の簡素化を実現します。

3. GPUリソ​​ースのクラウド化

データセンターの GPU リソースはオンデマンドで呼び出され、動的に拡張され、使い果たされると解放されます。 AI アプリケーションは、負荷要件に応じて任意のサイズの GPU を呼び出すことができ、複数の物理ノードから GPU を集約することもできます。コンテナまたは仮想マシンの作成後も、仮想 GPU の数とサイズは調整できます。AI アプリケーションの実行時に停止すると、GPU はすぐに解放されます。リソースは GPU リソース プール全体に返され、効率的なリソース フローと完全な利用が促進されます。

6. OrionXの予想収益

1. AIシーンのパフォーマンスを向上させる

GPU プーリングを実装すると、ユーザーはデータセンター内のすべてのサーバーで GPU を共有できるため、リソースの使用率が大幅に向上し、GPU サーバーの調達コストとキャビネット密度が削減されます。 AI 関連のビジネス担当者は、基盤となるリソースのステータスを気にする必要がなくなり、より重要なビジネス面に集中できるようになり、アプリケーション開発がより便利かつ簡潔になります。

2. AIアプリケーション支援機能の向上

GPU リソースのセグメント化とオンデマンドのリソース割り当てにより、AI 推論シ​​ナリオはマルチモデルの並列化に役立ち、ビジネスの運用効率が大幅に向上し、同じ AI コンピューティング能力条件下でビジネス量の弾力的な拡大を数倍サポートできます。

3. プロジェクトサイクルの加速

GPU リソース プーリングの後、GPU コンピューティング能力とビデオ メモリ リソースの動的な第 2 レベルの割り当てとリサイクルがサポートされ、GPU リソース割り当ての効率が大幅に向上します。同時に、AI プログラムのコードを変更する必要がないため、プロジェクトの立ち上げ時間を効果的に改善できます。

4. GPU コンピューティング リソースの使用を最適化する

ソフトウェア定義のコンピューティング能力の手法により、従来の GPU リソースはカード全体の単位で割り当てられ、1% のコンピューティング能力と 1MB のビデオ メモリを基本単位としてリソースが提供されます。GPU はオンデマンドで割り当てられ、全体的な稼働率が大幅に向上します。

5. 運営・保守管理要員の効率化

OrionX AI GPU コンピューティング リソース プーリング テクノロジーは、統合された UI 管理および操作ページを提供します。運用保守担当者は、管理端末を通じて、すべてのGPUサーバーとGPUリソ​​ースの割り当てと運用利用状況を迅速かつ視覚的に収集し、GPUリソ​​ースプール運用レポートの定期出力をサポートします。リソースのプーリング、完全な管理プロセス、システム プラットフォーム レベル、運用と保守の可視化管理モデル、および境界範囲の縮小により、管理効率が 2 倍になります。

6. 省エネと排出削減

OrionX スケジューリング エンジンの効率的なローテーションのおかげで、サポートされる AI アプリケーションの数が大幅に増加し、GPU サーバーの調達コストと、それに対応するサーバーのエネルギー消費とコンピュータ ルーム環境のエネルギー消費コストが削減され、ビジネス システム全体の運用コストが削減されます。 、投資効率の向上、国への支援 2050 年の二酸化炭素排出削減目標は達成されました。

AI コンピューティング リソース プールを構築すると、企業運営のデジタル アップグレード中の人工知能シナリオにおけるビジネス システム イノベーションの急速な成長をより適切にサポートできます。これは、特にインフラストラクチャの利用率の向上、機器の運用と人員の運用と保守のコストの削減、重複の削減に反映されます。 . 構築、リソース割り当ての最適化、サービス機能の向上などにより、人工知能分野における顧客のイノベーション速度を効果的に加速できます。

おすすめ

転載: blog.csdn.net/m0_49711991/article/details/128383656