[シェア]華為Huawei社のクラウドクラウドサービスのキー文字認識技術、および製品の着陸は留意すべき事項(OCRシリーズII)

要約この記事のOCRテキスト認識第二シリーズ。まず、Huawei社のクラウド文字認識サービスで簡単に見ては、キー技術製品、主要な機能、製品の最適化の方法に焦点を当て、製品は問題段差ピットを認識する必要があります。多くの全体のポイントは、人工知能やデータ駆動型の製品には注意が必要です。

まず、Huawei社のクラウド文字認識製品についての簡単な紹介に続いて、その後、道路の製品の私達の主要な技術のいくつかの、主要な機能、最適化を強調表示し、製品が問題を認識する必要がありますを行うと、ピットを辞任しました。多くの全体のポイントは、人工知能やデータ駆動型の製品には注意が必要です。

Huawei社のクラウドOCR技術チームは、2019として、製品をやって、だけでなく、いくつかのゲームに参加、または書き込み論文、技術の効果を高めるためにされICDARのSROIEのシート認識競争、一緒にこの大会に関与華中共同開発。優れた精度は、世界初の96.43をしたとトラックの端文字認識では、以上の2-5の二点が、また、特許出願件数については、おそらくです。私たちの革新ので、我々は主要な2019テクノロジー・アチーブメント賞新製品賞のかなりの数を取得します。

image.png

これが私たちの文字認識Huawei社のクラウドサービスのパノラマである、主に一般的なカテゴリ共通言語、共通の形式、スクリーンショットや他のネットワークを含む一般的なクラス、クラスのノート、クラスのドキュメント、業界の種類、およびカスタムカテゴリ、を含む5つの主要なカテゴリが含まれています。それはチケットのさまざまなを指し注意カテゴリは、例えば、それだけでVAT請求書、電車、タクシーチケットです。そのような文書は、このようなIDカードなどのドキュメント、、、ライセンスを運転免許証、パスポートを駆動し、その上のすべての種類です。産業分類は、医療業界や他の医療のチェックリストとして生活の例えば、ガスメーターの側面、で物流業界によって、電子の表面などの業界特有の、紙面あります。カスタムクラスはありません、それは、このような海外身分証明書として、カスタマイズされた顧客の特別なものです。ヘルプ企業は、運用コストを削減し、生産性を高めるために、

image.png

高精度、ロバスト性と適応性と流れ、画像処理技術の種々の統合を処理するHuawei社OCR。文字認識精度が特に高い、間違ったライン、スタンプ、テキストオーバーレイやその他の複雑なシナリオをサポートし、文書の複数の種類の異なる適応画質をサポートしています。次いで、前処理画像を含む全体のプロセス、テーブルの抽出は、さらなる処理の形態が存在しない、正しい文字、文字認識、ワード処理、及び最終的にクライアントに戻されるテキストの位置は、JSONデータを構造化されています。

したがって、これらの機能は、それを実現する方法です。まず第一に、それはハードウェアの初めからで、私たちは、Huawei社のクラウド上昇(アセンド)チップ最適化された低レベルをコーディネート。例えばLSTMマルチオペレータの統合のために、オペレータは、書き換えなど。実際には、やることを学ぶの深さは、それはもちろん、多くの中小企業はこれを行うことはできません、それは最適化アルゴリズムの上で必要となる、ハードウェアを最適化するためにゼロからスタートするのがベストです。もう一つのポイントは、我々は、トレーニング速度を向上させるために、画像前処理のさまざまなを持っている例えば、我々は、マルチスレッド複数のキューに基づいて、異なる程度のテキストを成長した後、データの読み取り速度を向上させるだろうということです。重合は、累積勾配の最適化、百万、10時間のスライスデータは、トレーニングを完了します。

image.png

場合生成物は、このようなマップの検出のシール下ようなシナリオ、様々な遭遇するでしょう。これは、スタンプの内容を識別するために必要な広東省の当社の実際のシーンのクライアントです。楕円形シール図の第I章に加えて、円形断面、正方形断面、三角形断面などもあります。アップ顧客のニーズにない我々は、我々は文字ベースの後にいくつかの最適化をした、約96%の正解率については、基本的には顧客のニーズを満たすため、パフォーマンスを検出するために、曲がったテキスト検出アルゴリズムの様々なを使用しています。そこで、彼らは言います。あなたが論文を書くか、子どもたちの製品を行うしているかどうかは、目標と最適化アルゴリズムを継続するようにしてください。証明された優れた性能が、実際には、多くの場合、シーンを失敗しても、元の論文の多くの効果は、論文に記載しました。文字認識アルゴリズムが最適化されていない、サツマイモを販売する家に行く方が良いです。

image.png

倍の深さの研究では、キーデータは、データの需要は非常に大きいです。しかし、限られたデータは常に、データをタグ付けするコストも素晴らしいですが、それは時間がかかり、複合データは、基本的に選択肢となりました。左端その後syntext、私は多くのチームが使用中であることを信じて、エキスの形状とセグメンテーション結果にセグメンテーションを使用して、被写界深度を計算する最初の、そしてテキストを生成し、滑らかなエリアを見つけることです。

我々はまた、全体像を合成するために使用さなどOpenCVの、枕、などの伝統的な方法を使用します。強化オペレータライブラリの豊富なセットからのテキストのための我々の研究では、オペレータを持っていないオープンソースプロジェクトの多くを追加しました。それと同時に、我々はまた、GANによって、いくつかのセクションを変換します。もちろん、GAN時に変換されたコンテンツは、より不可解でしょう。また、これは結果が出てくるまでの時間のない多くは、説明するので、学習の深さである。あなたがなり得るかを知ることはありません。

image.png

自動学習機能は、例えば、我々は人口PBAに基づくアルゴリズムの強化、ケーキの上のアイシングすることができます。それは、迅速かつ効率的にニューラルネットワークの学習データ強調方法を学ぶことができます。いくつかのシーンでは、日常の状況のトレーニングは3日かかり、データ拡張後に生成PBAによって生成され、実際には半日程度にまで増加しました。

一方、それはいくつかのアルゴリズムモデルで、性能もそう言って、ある程度改善されました。我々のモデルでは、それは約3ポイント増加し、パフォーマンスについてです。私たちは、ModelArtsプラットフォームのHuawei社の自己開発したNASに基づいて検索を行います。その後、自動的に最適なモデルを見つけました。最適化の剪定モデル中に海外の研究機関の一つ。

image.png

そこに持っているどのくらいの人工知能と呼ばれる単語を広がっている今、多くの製品がそのように多くの労力を必要とする多くの仕事があること、AIコミュニティの要件に合わせて調整されているので、自動化は、将来のです。当社の製品の急速な反復のために、我々は独自のプラットフォームを構築します。あなたは、元の画像の量を入力すると、データはすぐにこれらの写真の子供たちで強化され、モデルベースのトレーニングは、APIインタフェースを展開することができます。我々は、モデルの市場シェアのうちで我々のモデルを配置します。

お客様は、我々のモデルの微調整を続けることができ、彼らはこれらのサービスを提供するユニークなモデル、またはモデルを形成します。

image.pngスピードと性能の必要性は考慮して。ここでは、その後、前後の結合は、それが大幅にパフォーマンスを向上させることができ、検出した場合、フレーム単位で、テキスト、ビデオ、フレームの識別から、である私たちの実際のシーンは、あります。私たちは、この時にこのビデオを見ることができます。ビデオ、テキストのどの部分を見逃している、または基本的な識別は出てきませんが、我々は前後連携に基づいて、あなたは誤った結果の一部を修正することができます。しかし、問題があり、ビデオのほとんどのため、25約1秒は、我々はそれを識別するために、フレーム毎場合、大幅に私たちのコストが増加します。だから、私たちは、スピードなどを改善するために、フレーム・ベースの最適化対策を描画します。我々は製品コストと速度を考慮していない場合、それは多くの場合、意味がありません。

image.png

畏敬のデータは、データの深い学習の時代は重要ですが、それは適切な方法で、貪欲にありませんでした。我々は、厳密に画像が直接破壊され、結果を返し、プライバシー保護規制がメモリ内で実行した後、EU GDPR他の写真をたどるなど、海外市場では現地の法律を遵守します。私たちはこれに全く注意を払っていない場合、これは経験を残した経験のHuawei社の30年で、学んだ教訓、多くの場合に多大な経済的損失と評判の原因となります。

さらに恐ろしい何回も私たちの会社のために政治的なイベントにこれを変換することが可能であるということです、私たちのチームは、インパクトと計り知れない損失を持っていました。そして、近年の中国のプライバシーの保護にますます注目が、最近、関連する法律を持っています。我々はフランステレコム、ドイツテレコムHuawei社のクラウドのPaaSの商品やサービス、物事の多くを伴う可能性がある任意のプライバシーの問題を与える前に、私の仕事の経験はまた、セキュリティに関連しているとこれがかもしれません。5グラム、Huawei社は、今ちょうど繰り返し、私たちが安全であることを世界に証明しているもう一つの例は、たとえば、それは顧客のプライバシーのために大きな敬意です。

image.png

需要と一緒に行くためのプログラム。これが私たちの教育の実態です。顧客がクラウドでより多くをコールするために非常に始めて、私たちのサービスは、APIの形態です。しかし、我々は後に、このような金融、保険などとして、顧客の多くを満たし、例えばヘルスケアです。彼らは、Huawei社は、データ保護法を遵守することを信じていますが。しかし、彼らはまだシステムの外にデータを置くことはありません。だから我々は、サービスの他のいくつかのモードを考慮する必要があり、この時間は、例えば、側で、例えば、端側です。

クラウドサーバー側に加えて、我々は、サーバーベースのアトラスや側面の他の側面を提供します。顧客は、顧客が非常に高いパフォーマンス要件ではなく、また、例えば、スマートカメラなどHilensボックス、のために、最後の機器側の一部を使用することができる場合は、システムのうち、そのデータは、推論の側で行うことができる必要はありません。今、私たちはやる展開の共同クラウド側の端部です。顧客のニーズに基づいて、彼らのビジネスモデルを調整するだけでなく、成功の主要製品の一つ。

image.png

最後のポイントは何倍製品だけの製品です。今年の前半では、Huawei社のクラウドOCRは、デジタル中国の競争の一部であり、中国の書道コンクールのシーン認識、の多文化遺産を組織し、チームを助けます。産業のデジタル中国大会は中国省と福建省人民政府の指導は、テーマはデジタル経済、イノベーション主導型デジタル中国を可能にするソフトウェアです。これは、デジタル中国は***メイクに近年でビルド中国はデジタル社会の中にある、デジタル中国の一部です。

私たちのコンテストのテーマと支援、データ、Q&Aなど全面的な参加など、サイトのレビュー、。私たちの本来の意図は、Huawei社の製品の両方の宣伝だったが、あなたには、いくつかの新しい技術を得ることができる場合もご覧ください。しかし、その後、コンテストの後、多くの大学や専門学校の古典のライン。それとも博物館は、私たちは、私たちの共通の希望は、彼らが問題を解決するために支援し、いくつかの古代のテキスト認識プログラムを行うことを発見しました。多くの人がこの仕事に従事して消極的である、と多くの人が知っているので言葉は、Xiaozhuanなど多くの、ではありません。

もちろん、また、多くの困難に遭遇し、例えば、回避するためには、書き込みは、多かれ少なかれ、いくつかのプログラムを書いた、古代書道のテキストがたくさんあります。ここで私たちは、製品を行う多くの時間があり、この特定の事を、言及し、お金を稼ぐために使用されています。しかし、何度も、いくつかのより良いものを行うために使用することができ、例えば、文化遺産の数になど、いくつかの社会問題を、解決することです。もちろん、それは我々が技術者がそれを感じている可能性があります。私たちは、特に個別に言及していることを誇りに思って非常に満足しているもの。

image.png

著者:BlackMoon

おすすめ

転載: www.cnblogs.com/huaweicloud/p/12525887.html