中国初のOCRホワイトペーパーがリリースされ、深層学習に基づくOCRが主流になりました

中国初のOCRホワイトペーパーがリリースされ、深層学習に基づくOCRが主流になりました
テキストはスキャンによって認識できます。これは、近年多くのアプリケーションで登場している新機能です。たとえば、銀行カード番号を入力すると、電話のカメラで直接スキャンでき、ソフトウェアで銀行カード情報を抽出できます。ここで使用する技術は、光学文字認識技術(光学文字認識)です。
OCRは、Optical Character Recognitionの略で、画像内の手書きまたは印刷されたテキストをコンピューターで直接処理できる形式に変換するためのマシンの使用を指します。コンピュータビジョンの分野における重要な分野として、OCRの典型的なアプリケーションは、画像テキスト認識による情報入力を実現することです。同時に、テキストとシンボルには豊富なセマンティック情報が含まれているため、OCRに基づいてテキスト情報を抽出し、それを分析することで、マシンが画像をよりよく理解するのに役立ちます。
9月28日、産業情報技術省、北京市人民政府、および国際電気通信連合ITU-Tが主導する2020 AIIA人工知能開発者会議で、主催者は最初の国内インテリジェントテキスト認識(OCR)機能評価を正式に発表しました。ホワイトペーパーを適用します。
このホワイトペーパーでは、OCR開発の背景、技術の進化、産業開発の状況、技術の標準化、開発動向など、現在の国内OCR業界の詳細なレビューを提供し、OCR技術の産業化の加速された実装と持続可能な開発を包括的に推進しています。 
このホワイトペーパーは、中国情報通信技術アカデミー、中国人工知能産業開発同盟、およびテンセントの関連部門によって共同で作成されたものと理解されています。人工知能技術の助けを借りて、近年のOCRパフォーマンスの継続的な改善は、産業のデジタル化によって生み出されたより複雑なOCRアプリケーションシナリオを確実にサポートしています。同時に、携帯電話、電子製品、クラウドサービスをカバーするより多様なサービスキャリアは、OCRの普及をさらに加速させ、社会的生産と生活のより多くの分野に広がり続けています***。特に2020年4月、国家開発改革委員会は、人工知能の応用における最も「地域の気候」として、「新しいインフラ」の範囲に人工知能インフラを明確に含め、商業促進のためのより成熟した分野でした。OCR業界は「新しいインフラ」の背景にあります。間違いなく、新しい開発の機会がもたらされ、関連するテクノロジーもまた、新たな変化の到来を告げるでしょう。報告書は、OCR技術の将来の開発の3つの主要な方向性には、主に統合されたエンドツーエンドOCRモデル、高性能で効率的なOCR、および知覚から認識までのインテリジェントOCRが含まれると指摘しました。詳細には、統合されたエンドツーエンドのネットワークを構築し、テキストの検出と認識を同時にトレーニングすることは、OCRテクノロジーの開発における重要なトレンドの1つになります。エンドツーエンドのネットワーク設計は、繰り返しの計算を減らすだけでなく、機能の品質を向上させ、タスクのパフォーマンスの向上を促進します。
同時に、リソースに制約のあるモバイルデバイスで多数のOCRアプリケーションを実行する必要があります。現在のモバイルOCRアルゴリズムは、実行速度と引き換えに特定のアルゴリズムの精度をほとんど犠牲にします。パフォーマンスと効率の両方を考慮したモバイルデバイス用に設計された軽量OCRモデルは次のようになります。将来の発展のための重要な方向性。さらに、知覚から認識までのインテリジェントOCRの観点から、OCRテクノロジーは通常、コンピュータービジョンの分野から始まり、将来的には自然言語処理テクノロジー、ナレッジグラフ、その他の幅広い分野と相互統合されます。これは、セマンティクスと知識の詳細なマイニングを通じてOCRのパフォーマンスを向上させることです。重要なトレンド。
さらに、強化学習やメタ学習などの新しい学習パラダイムをOCRに導入して、マシンがテキストを独立して認識する方法を学習できるようにすることも、研究のホットスポットになります。多くの業界には、深く成熟したアプリケーションがあります。将来的には、従来の産業のデジタル変革に伴い、OCRの範囲とシナリオがさらに拡大し、市場規模がさらに拡大します。権威ある組織は、世界のOCR市場が2025年に133.81億米ドルに達すると予測しています。初期の技術開発のレベルによって制限されていたOCRメーカーは、通常、ライセンスプレート認識システムなどの特定のアプリケーションから割り込んで、一連の特別な機器を形成しました。近年、ますます多くの端末デバイスとアプリケーションにOCRテクノロジーが組み込まれ、インフラストラクチャ、基本機能から端末アプリケーションまでの完全な業界チェーンエコロジーが徐々に形成され、カードや請求書などの一連の細分化も導き出されています。 OCR機能は、組み合わせによってさまざまな業界にサービスを提供します。図| OCR業界のエコロジカルマップ
OCRテクノロジーが、さまざまな上位レベルのビジネスアプリケーションに基盤となる技術サポートを提供する基本機能として徐々に「沈んでいる」ことを理解するのは難しくありません。テクノロジーの巨人とクラウドコンピューティングベンダーは、OCRの展開を加速しています。自社の内部ビジネスニーズを満たしながら、高度なOCR機能を外部に開放し続けています。OCRはテクノロジーの巨人の標準になっています。特定の着陸アプリケーションのレベルでは、カード認識や請求書認識などの現在の標準的なシーンテキスト認識は比較的成熟しており、教育、ロジスティクス、その他の業界での手書きテキスト認識のアプリケーションも拡大しています。複雑でダイナミックなシーンでのOCRテクノロジーとアプリケーションは、過去2年間で注目を集めています。たとえば、無人運転やロボットなどのシーンでは、OCRを使用して視野内の文字を認識します。今回発表されたホワイトペーパーでは、Tencent Cloudは、OCRの分野における多くの典型的な着陸事例も発表しました。OCR関連分野の適用閾値を包括的に下げ、混合状況を回避するために、ホワイトペーパーはOCR評価基準と仕様も初めて発表したことは言及する価値があります。2020年4月、中国人工知能産業開発同盟は、「OCRサービスのインテリジェントグレーディング技術要件と評価方法」を策定し、機能、性能、安全性の観点からOCRサービスの技術要件と評価方法を規定しました。7月には、国際電気通信連合のITU-T SG16グループでOCRサービス要件と評価方法が正常に確立され、深層学習を背景としたOCR評価方法が国際標準機構によって徐々に受け入れられていることを示しています。現在、中国人工知能産業開発同盟の指導の下、テンセントクラウドが開発した天建OCRサービスエンジン自動評価プラットフォームは、OCR技術サプライヤーに技術試験サービスを提供するだけでなく、OCR技術または製品の試験結果を需要側に公開することもできます。選択のための客観的かつ公正な基盤を提供します。

Daohan Tianqiong CiGril Robot API
Daohan Tianqiong CiGril Cognitive Intelligent Robot APIユーザーは、基本情報を取得するための手順に従う必要があり
ます。1。プラットフォームにアカウントを登録する
2.プラットフォームにログインし、バックグラウンド管理ページに入り、アプリケーションを作成してから、アプリケーションを表示し、アプリケーションを表示する関連情報。
3.アプリケーション情報ページで、appid、appkey秘密鍵、およびその他の情報を見つけてから、ロボットアプリケーションにアクセスするためのインターフェイスコードを記述します。
アクセス
要求アドレスの開始http
//www.weilaitec.com/cigirlrobot.cgr要求方法:
要求パラメーター:
パラメータータイプデフォルト値説明
userid文字列プラットフォーム登録済みアカウント
なしappid文字列プラットフォーム作成なしアプリケーションID
キー文字列プラットフォームなしアプリケーション生成された秘密鍵
msgString ""メッセージコンテンツ
ipString ""クライアントIPには一意性が必要です。IPがない場合は、QQアカウント、WeChatアカウント、携帯電話のMACアドレスなどに置き換えることができます。

インターフェイス接続の例:http//www.weilaitec.com/cigirlrobot.cgr?key = UTNJK34THXK010T566ZI39VES50BLRBE8R66H5R3FOAO84J3BV&msg = Hello&ip = 119.25.36.48&userid = jackli&appid = 52454214552

注:パラメーター名は小文字にする必要があり、5つのパラメーターを省略してはならず、パラメーター名を正しく書き込む必要があり、各パラメーターの値を空の文字列にすることはできません。そうしないと、リクエストは成功しません。userid、appid、keyの3つのパラメーターは、アプリケーションの作成後にプラットフォームに登録する必要があります。そうすると、アプリケーションの詳細を確認できます。Useridは、プラットフォームに登録されているアカウントです。
サンプルコードJAVA:

インポートjava.io.ByteArrayOutputStream;
インポートjava.io.IOException;
インポートjava.io.InputStream;
インポートjava.net.HttpURLConnection;
java.net.URLをインポートします。

パブリッククラスapitest {

    / *
    
Get请求、获得データデータ@ param
     urlStr
    
@return
     /
    private static String opUrl(String urlStr)
    {        
        URL url = null;
        HttpURLConnection conn = null;
        InputStream is = null;
        ByteArrayOutputStream baos = null;         {             url = new URL(urlStr);を
        試してください            conn =(HttpURLConnection)url.openConnection();             conn.setReadTimeout(5



10000);
            conn.setConnectTimeout(5 * 10000);
            conn.setRequestMethod( "POST");
            if(conn.getResponseCode()== 200)
            {
                is = conn.getInputStream();
                baos = new ByteArrayOutputStream();
                int len = -1;
                byte [] buf = new byte [128];

                while((len = is.read(buf))!= -1)
                {
                    baos.write(buf、0、len);
                }
                baos.flush();
                文字列の結果= baos.toString();
                結果を返します。
            } else
            {
                throw new Exception( "服务器には接错误!");
            }

        } catch(Exception e)
        {
            e.printStackTrace();
        }最後に
        {
            try
            {
                if(is!= null)
                    is.close();
            } catch(IOException e)
            {
                e.printStackTrace();
            }

            try
            {
                if(baos!= null)
                    baos.close();
            } catch(IOException e)
            {
                e.printStackTrace();
            }
            conn.disconnect();
        }
        return "";
    }
    
    
    public static void main(String args [] ){        
            // msgパラメーターは、過去の会話の内容です。            
            System.out.println(opUrl( " http://www.weilaitec.com/cigirlrobot.cgr?key=UTNJK34THXK010T566ZI39VES50BLRBE8R66H5R3FOAO84J3BV&msg= IP = 119.25.36.48&こんにちはユーザーID&jackli&AppIDを= 52454214552 = "));
            
    }
}

おすすめ

転載: blog.51cto.com/14864650/2539992