データアノテーション丨OCRアノテーションとは何ですか? どの注釈タイプに属するか

写真

最近、ユニバーシアードの開催が成都のすべての人の大きな関心事になっていますが、なぜ改札でチケットや ID カードをスキャンするだけで情報を確認して入場できるのか、考えたことはありますか?

ここで、今日皆さんと共有したい OCR について触れなければなりません。OCR について知らない人は、OCR が画像の注釈に属していると誤解するでしょうが、実際にはテキストに属しています。その理由を知りたいですか?

写真

OCRとは              

OCRとは、英語:Optical Character Recognition、中国語名:Optical Character Recognition、略してOCRです。電子機器が紙に印刷された文字を検査し、暗いパターンと明るいパターンを検出してその形状を判断し、文字認識手法を使用してその形状をコンピュータのテキストに変換するプロセスを指します。その本質は、光学機器を使用して画像をキャプチャし、認識することです。人間の目の機能は機械にも拡張されます。

写真

OCR アプリケーションのシナリオ

前者の OCR は主に金融や税金の請求書、本人確認、内容レビュー、教育、保険、医療、交通、写真認識/翻訳などの分野で使用されています。これらのアプリケーションは 4 つの主要なシナリオに分類できます。

写真フォームクラス

このタイプのデータはプライバシーが高く、翻訳テクノロジーを通じて電子文書として保存できます。

たとえば、子どもの宿題を手助けするために、親はわからない問題に遭遇したときに実用的な検索機能を好みます。

デジタルネイティブ

あるタイプのデータは、さまざまなフォント、背景、配置、組み合わせなど、最も複雑で多様です。最も代表的なのは商品情報の伝達者である淘宝写真です。写真の量も多く、毎日の更新も最多です。

ドキュメントクラス

このタイプのデータには、チケット、請求書、持ち帰り注文、さまざまな種類の請求書の保管など、多くの公開シナリオが含まれます。

自然の風景

このカテゴリは、現在最も広く使用されており、最も成熟しており、商業的に価値のあるシナリオです。例: 文書認識、銀行カード認識、ナンバープレート認識、カメラ監視、宅配便番号認識など。

写真

例:以前は宅配便を送る際、受け取り情報を手入力する必要があり、宅配便のお兄さんがそれを印刷する必要がありましたが、現在は宅配便のお兄さんが画像認識機能を直接利用し、写真認識で自動的に入力されます。これは OCR を通じて直接テキストに変換され、結果が得られます。

なぜ OCR 技術が必要なのでしょうか? 

OCR、つまりテキスト認識技術の研究は前世紀に始まり、現在に至るまで発展と最適化が続いており、私たちの生活と密接に関係している一方で、私たちの生活に深く関わっています。他の分野の研究の基礎を築きました。私たちは通常、書籍から情報を早期に入手します。

そして今では文字だけでなく、音声、写真、動画など、情報の伝達形態はますます多様化しています。では、このコンテンツからどのように情報を収集するのでしょうか? 現時点では、テキスト認識テクノロジーを使用する必要があります。

写真

OCR認識プロセス

レイアウト解析 → 前処理 → 行・列の切り取り → 文字認識 → 後処理の認識・修正

OCR転写の機能

1. OCR認識技術は、汎用的な各種印刷帳票を自動的に判断、分割、認識、復元するだけでなく、帳票理解においても実用的に満足のいく結果をもたらします。

2. OCRは文書のレイアウトを自動的に分析し、自動的に列に分割し、タイトル、列、画像、表などの対応する属性を決定し、認識順序を決定し、認識結果を新しいものに復元できます。スキャンされたドキュメントのレイアウトと一致するレイアウト。

3. OCRはフォーム自動入力技術もサポートしており、特定の形式で印刷または印刷された漢字、文字、数字を自動的に認識でき、手書きの漢字、手書き文字、数字、およびさまざまな手書き記号を認識してフォームに出力できます。フォーマット。フォーム入力の効率が向上し、大幅な省力化が図れます。

写真

OCRの現状の難しさは何ですか

1) 不規則なコンテンツ、画像の鮮明さなど、背景の干渉など。

2)非簡体字、類似文字、稀少文字、複雑な数式記号等の認識。

3) 位置の問題は明らかで、行間が明確ではなく、マークするのが難しく、文字の高さの範囲が異なります。

4) 手書きの問題は、個人の習慣やフォントのスタイルが人それぞれ異なるため、現時点での最大の困難です。

5) 認識内容により、現在は漢字、英語、アラビア数字の3つに分類されています。数字認識が最も単純、英語認識は26文字(大文字52文字含む)のみ、中国語は異なります常用漢字3700文字、類似文字2278文字、繁体字・簡体字等もフォント全体を認識する必要があります、これが現在最大の問題です。 

OCRマーキングルール            

OCR ラベル付けルールに関しては、各 OCR ラベル付けプロジェクトに独自のルールがあり、一般に次のルールがあります。

1) 属性アノテーション: 画像を有効なデータ、無効なデータなどに分割し、画像全体または範囲にマークを付ける; 2)
フレーム選択要件: 一般にタスクの種類に応じてフレーム、ポリゴンなどを描画する;
3) 精度要件: テキストのピクセルは基本的に 80 ~ 400 なので、フレームの描画精度はテキストに合わせて調整しますが、フォントを押さないようにしてください。プロジェクトの要件によって多少の違いがある場合があります。 4 ) コンテンツの転写: 状況に応じ
てプロジェクトでは、中国語、英語、アラビア数字などがあり、通常は実際の内容に従って転記する必要があります;
5) 逐次ラベル付け: テキストの内容は一般に連続性があるため、多くの OCR 認識が順番に実行されます。 、コンテキストなどのようなので、これを行うときは、内容の順序でラベルを付けるのが最善です。;
6) 提出形式: 現在のテクノロジーは基本的にオンラインでマーキングする方法であり、マーキングして保存して提出するだけで済みますが、一部のプロジェクトではデータのセキュリティの問題によりオフラインでマーキングする方法が引き続き採用されます。提出フォーマットは、json、txt など、プロジェクトの要件に従って提出する必要があります。

お問い合わせ

写真

WeChat パブリック アカウント: Yuntu Zhichuang 人工知能産業応用研究所

人工知能産業応用研究所

シナリオを使用して AI エコロジーを定義し、業界、産業構造、社会開発の需要動向、人材不足ニーズの変化に適応する業界の実装を促進し、業界と教育の統合、産業アプリケーションの人材トレーニング、アプリケーションのコレクションを作成します。シナリオ開発、産業生態育成、産業プロジェクトの育成と革新、国際人工知能応用指向産業育成基地への投資。人工知能産業チェーンの生態学的プラットフォームを構築することで、人工知能技術を促進して多様なビジネスシナリオに対応する業界アプリケーション標準を形成し、より完全なAI産業チェーンエコロジーを備えた人工知能産業の実装を促進および促進します。

おすすめ

転載: blog.csdn.net/aiinstitute/article/details/131923170