OCRドキュメントの自己学習
1 はじめに
OCR ドキュメントの独学、このタイトルを見て多くの人が最初に抱く反応は、「アルゴリズムのやり方がわからない?」というものです。
実際、OCR文書独学入門をよく読めばわかるが、この製品は主に「アルゴリズムの基礎を持たない」企業や個人開発者を対象としている。
それで、これを見て、安心しませんか?
アルゴリズムベースの恩恵がなくなった今、私たちは安全かつ大胆に今日の製品評価環境に参入することができます。
私は Alibaba Cloud 製品を学習する姿勢で使用する姿勢を常に貫いており、評価製品であってもその考え方は変わりません。
もちろん、ユーザー目線で「壊す」こともしますが、やはりOCRチームの学生たちは体験を書き出すよりも、別の体験を届けたいと思っていると思います…ふふ…。
2. 開封体験
まず目を引くのはOCR文書自習の概要ページです
。 概要ページでは、
クイックスタートガイド、
モデル選択リスト、
サービスのアクティベーションと権限、
専用のカスタマーサービスDingTalkグループなど、おなじみの内容が掲載されています。
もちろん手数料がかかるので、請求、
請求明細ボタンをクリックすると支払い説明文書にジャンプするので、お金を明確に使うことができます。
3. 私のタスクメニュー
3.1 タスクの作成
「マイタスク」メニューに切り替えると、同様にリストに以下のようにタスクのデータ情報と各種テンプレート情報が表示されます。
ここでは、タスクを作成します。つまり、「タスクの作成ボタンをクリックしてタスクの作成ページに入ります。
タスク作成ページは右側の余白が多すぎて慣れるかわかりませんが、とにかく癖です。
次に、カスタム フォーム テンプレートを選択し、情報を入力して、 [作成]ボタンをクリックします。
案の定、結果は私を失望させませんでした。サービスがアクティブ化されていなかったことを思い出させました。
この場合、ボタンをクリックしてカスタム フォーム テンプレート サービスをアクティブにする必要があります。
ボタンをクリックしてすぐにアクティブ化すると、このページが表示されます。これは、アクティブ化が成功したことを意味します。
タスク作成ページに戻り、「作成」ボタンを直接クリックしてタスクを正常に作成します。
3.2 タスクの編集
私のタスク リスト。編集ボタンをクリックしてタスクの編集ページに入ります。
タスク管理者: 1 人のユーザーのみをバインドする場合は、[X] をクリックすると、これは削除ボタンではなく、以下に示すドロップダウン リストになります。
詳細オプション: 詳細オプションを展開し、空白部分をクリックすると、詳細オプションが自動的に折りたたまれます...この機能はとても便利です???
クリックする前に
クリック後
3.3 テンプレートの作成
タスクを作成したら、テンプレートを作成します。
1. テンプレートをアップロードする
テンプレートのサンプル画像を差し替えようとクリックすると、画像が直接削除されて元に戻ってしまうのですが…
これが操作を間違えるとかなり興奮します。
再アップロードしています。今回はドラッグアンドドロップに変更しました。
次に、参照フィールドを選択します
次のボタンをクリックすると、結果はまだ私を失望させるものではなく、COR 情報パラメータが欠落していることが示されました...
ユーザーXiaobiさんに、弱々しくお願いしたいのですが、
- OCRユーザーパラメータとは何ですか、
- OCRユーザーパラメータとは何ですか?
- prism_wordsinfo パラメータは何を表しますか? ?
ご存知の場合は、コメント欄にメッセージを残していただければ幸いです。
サポートされていない形式をアップロードする場合、エラー プロンプトのポップアップ ウィンドウで、
確認ボタンと閉じるボタンの実際の機能の意味の違いは何ですか? ?
ポップアップ ウィンドウ、3 つの「閉じる」ボタン (X、了解、閉じる)、これは見た目の美しさのためでしょうか? ?
たゆまぬ努力の結果、PDF ファイルをアップロードし、次のステップに通常通り進むことができました。つまり、[参照フィールド]タブを選択します。
このページでも同様に、左側のメニューバーが自動的に折りたたまれますが、この機能は問題ありません。
しかし、アップロードしたPDF文書は11ページあり、このページでは最初のページの内容しか認識されないのですが、これは意図的に設定されているのでしょうか?
次に、ドキュメントを適切な場所にドラッグし、[保存]をクリックしたところ、正常に保存されました。
3. 識別フィールドを構成する
構成識別フィールドのタブで比較ボタンをクリックしましたが、このドキュメントのゴースト感はすごいです。
次に、いくつかの情報を追加し、「次へ」をクリックすると、テンプレートの「テストとリリース」タブに完全に入ることができます。
4. テンプレートのテストとリリース
引き続き画像をアップロードし、テンプレートの公開と API 呼び出しの開始ボタンをクリックして、リリースが成功したかどうかを確認しましょう。
ここに情報が表示されるということは、テンプレートが正常に公開されたことを意味します。
もう一度詳細に戻るをクリックして、テンプレートの情報を確認しましょう
問題ありません。これは作成したばかりのテンプレートです。
4. オンラインでメニューを使用する
オンライン使用メニューに移動し、公開する必要があるテンプレートを選択します。これには何も問題はありません。
ドキュメントのアップロードを続けて効果を確認してみましょう
ドキュメントをアップロードする過程で、ドキュメントのタイトルが非常に小さく、フレームの外側にもはみ出していることに気づきましたか。
これは修正が必要なようです。
「API 統合」をクリックすると、API 統合ドキュメントにジャンプします。このAPI 統合は関数だと思っていましたが、ドキュメントになるとは予想していませんでした。
5. データ監視メニュー
データ監視メニューに切り替え、タスクに応じて、このタスクの情報を照会できます
この機能は問題ありません。
ただし、ここで問題が発生します。「タスク」が選択されていない状態でクエリ ボタンを直接クリックすると、下図に示すようにプロンプト メッセージが表示されます。「タスク」は必須オプションなので、クエリを実行してもよいでしょうか
。最初に必要なアイテムの識別を与える?誰もが一度は間違えないようにする方法?
5. ツールボックス
フィールド タイプ管理 → マイ フィールド: [フィールド タイプの追加] ボタンをクリックして情報を入力し、フィールド タイプを追加します。
フィールドタイプ管理→マイフィールド:一覧表示
辞書の内容も同様に閲覧ページからダウンロードできます。
6. まとめ
全体的な使用プロセスでは、非常に便利だと感じています。
また、アルゴリズムの基礎を持たない初心者ユーザーとしては、理解できないいくつかのプロンプトを除いて、他の操作手順やテンプレートの種類は非常にシンプルで豊富です。
実際、製品としては、豊富な機能に加えて、新規ユーザーが直接使い始められるよう、
面倒な手順を排除して貴重な時間を節約できるような操作のしやすさも求められます。
AI時代においては技術者がアルゴリズムを習得する必要があるが、
OCRドキュメントの独習は企業やユーザーにアルゴリズムフリーの基本テンプレートを提供するという位置づけであり、
コピーライティングのヒントや機能の使い方なども提案しすぎてはいけない。多くの技術関連 結局のところ、
製品のユーザーは必ずしも技術者ではなく、上司やテクノロジーを理解していない初心者ユーザーである可能性が高くなります。
私は小さな魚です:
- CSDN ブログの専門家。
- アリユン専門ブロガー。
- 51CTO ブログエキスパート;
- 認定講師等51名
- 認定ゴールド面接官。
- 就職面接およびトレーニングプランナー。
- いくつかの国内主流技術コミュニティの認定エキスパートブロガー。
- さまざまな主流製品 (Alibaba Cloud など) の評価で 1 位と 2 位を受賞。
私は Xiaoyu です。フォローしてください。より専門的で前置きしたテスト開発テクニックをお見せします。