イメージベースシーケンスの認識やシーンテキスト認識への応用のためのエンドツーエンドの訓練可能ニューラルネットワーク

概要

画像認識の配列に基づいてコンピュータビジョン研究の長期的な存在となっています。本稿では、最も重要かつ最も困難なタスクを識別するために、画像のシーケンスのいずれかに基づいているシーンテキスト認識問題を、研究しました。新しいニューラルネットワークアーキテクチャの統一されたフレームワークに転写特徴抽出、モデリングおよびシーケンスを提案しました。前のシーンのテキスト認識システムと比較して、提案されたアーキテクチャは、4つの別個の特性を有する:(1)ほとんどの既存のアルゴリズムがトレーニングをエンドツーエンドでの訓練や調整の別個の構成要素を必要と比べ。(2)天然に文字切り出しまたは正規の水平方向の寸法を伴わない任意の長さの処理シーケンスです。(3)それは、任意の事前に定義された語彙に限定されるものではなく、テキストやシーン認識タスク辞書ベースには辞書が著しいパフォーマンスをしていません。(4)それが有効とはるかに小さいモデル、実世界のアプリケーションシナリオのためのより実用的に生成します。ストリートビューのテキストと提案されたアルゴリズムを含むICDARデータセット、標準のベンチマークデータセットがIIIT-5Kを含んでの実験では、従来技術に勝る利点を証明しました。また、イメージベースの楽譜認識タスクで提案したアルゴリズムは、明確にその一般化を確認され、好調に推移。

1.はじめに

最近では、コミュニティは主に、ニューラルネットワークモデルの深さ、畳み込みニューラルネットワーク(DCNN)の特に深さによって視覚的に様々なタスクで大きな成功を促進するための強力な復活のニューラルネットワークを、見ています。しかし最近では、仕事の深さに最も関連オブジェクトクラス[12、25]を検出または分類するためのニューラルネットワークに焦点を当てています。画像ベースの認識配列:この記事では、コンピュータビジョンにおける古典的な問題に焦点を当てます。現実の世界では、そのようなシーンのテキスト、手書きの文字や音楽などの安定したビジュアルオブジェクト、多くの場合、シーケンスの形ではなく、単独で表示されます。異なる一般物体認識、そのような配列を同定するためにベースのシステムは、典型的には、代わりに、単一の標識の、対象の予測オブジェクトラベルシリーズを必要とします。したがって、当然認識標的配列の同定の問題など。オブジェクトのもう一つのユニークなクラスは、その配列の長さが大幅に異なる場合があります。例えば、英語の単語は、「OK」のように2つの文字、で構成することができる、または、そのような「おめでとう」など15個の文字で構成されています。従ってDCNnは、典型的には、固定された入力と出力の次元で動作し、従って、可変長のタグ配列を生成することができないのでDCNN [25,26]は、直接系列予測モデルに適用することができない、最も人気のあるモデルの奥行き画像。

いくつかの試みが、問題を解決するために、特定のオブジェクト(例えばシーンテキストなど)類似の配列のために作られてきました。例えば、[35,8]アルゴリズムは、単一の文字を検出し、DCNNが検出された文字画像注釈を訓練するために使用されるこれらの文字を識別するためにモデルを使用します。これらの方法は、典型的に正確に検出し、元の単語画像から各文字を切り出すためのトレーニングの強いキャラクタ検出器が必要です。いくつかの他の方法(例えば[22])テキスト認識シーン画像分類として扱われ、各英単語(90個の000単語の合計)のクラスラベルが割り当てられます。結果は、クラスをたくさん持っているような配列の組み合わせの基本的な数は百万よりも大きくすることができるので、それはなど中国語のテキスト、音楽、音楽、などのシーケンス、のような他のタイプのオブジェクトに一般化することは難しい大規模なトレーニングモデルです。要するに、現在DCNNベースのシステムは、直接画像ベース配列認識のために使用することができません。

リカレントニューラルネットワーク(RNN)は、主に処理順序に設計された、奥行きモデルニューラルネットワークファミリーのもう一つの重要なブランチです。RNNがターゲット画像と各検査要素の位置のトレーニングシーケンスに必要とされない利点の一つ。画像シーケンスがしばしば必要であるが、入力対象画像は、前処理工程に変換されます。例えば、グレーブス[16]は、幾何学的又は手書きのテキスト、蘇及びLu [33] HOG特徴のシーケンスに文字画像のシリーズから画像特徴を抽出します。その後の組立工程における前処理工程とは独立し、従ってトレーニングとRNN基づいて、既存のシステムの最適化を終了する終了することができません。

いくつかの伝統的なシーンのテキスト認識方法は、ニューラルネットワークに基づくものではありませんまた、洞察力、アイデアやこの分野で革新的なパフォーマンスをもたらします。例えば、Almaza`nら[5]、および[30]ロドリゲス - セラノら画像と共通の部分空間へのワードに埋め込まれたテキスト文字列を提案し、単語認識が問題を検索するために変換されます。ヤオら[36]とゴードーら[14]中央のシーンテキスト認識機能を使用して。標準参照データセットにおける効率的なパフォーマンスが、ニューラルネットワーク[8,22]に基づいて、上述のアルゴリズム、及び提案された方法にもかかわらず、通常、これらの方法よりも優れています。

この論文の主要な貢献は、新規なニューラルネットワークモデル、クラス物体認識画像シーケンスのために特別に設計されたネットワークアーキテクチャです。それはDCNNとRNNの組み合わせであるので、提案されたニューラルネットワークは、畳み込みニューラルネットワークサイクル(CRNN)と呼ばれています。配列のようなオブジェクトの場合、CRNNは、従来のニューラルネットワークモデルと比較していくつかの明確な利点を有する:1)配列タグ(例えば単語)から学ぶことができ、詳細な注釈を必要としない(例えば、文字); 2)直接学習情報の画像データから示さDCNNと同じ特性を有する場合に、前記いずれ手動も値化/セグメンテーション、位置決めアセンブリを含む前処理ステップを必要とする; 3)同じ特性は、ラベルのシリーズを生成することができるRNNた; 4)長配列制約なしオブジェクト・クラスは、唯一のトレーニング段階及び試験段階の間の高さを正規化する必要がある; 5)は、従来技術に比べて、それがシーンテキスト(単語認識)に良好又はより競争力がありますパフォーマンス[23,8]。6)これは、標準モデルが少ないストレージスペースを取る、はるかに少ないよりもDCN​​Nパラメータが含まれています。

2.提案されたネットワークアーキテクチャ

図1に示すように、CRNNネットワークアーキテクチャはボトムアップからの畳み込み、ループ層の層および転写層を含む、3つの部分から構成します。

 

図1。ネットワークアーキテクチャ。アーキテクチャは、3つの部分から構成:; 2)サイクル、各フレームラベル分布の予測; 1)の畳み込み層、入力画像シーケンスから特徴を抽出する3)転写層は、各フレームは、最終的な予測タグ配列となります。

CRNN畳み込み層の下部に自動的に入力された画像シーケンスのそれぞれから特徴を抽出します。ネットワーク上のコンボリューションは、前記コンボリューション出力層予測のシーケンスの各フレームについて、ループのネットワークを構築します。予測層は、環状タグ配列に変換された各フレームのCRNN上層を用いた転写。組成物(例えばCNNやRNNのような)ネットワーク・アーキテクチャの異なる種類によってCRNNが、しかし損失関数による共同訓練を行うことができます。

2.1特徴抽出

CRNNモデルでは、標準的なCNNモデル(完全な除去の接続層)層と最大畳み込みプールされた層のアセンブリ構築畳み込み層を用います。表される入力画像から特徴を抽出するためのそのような組立配列。ネットワークに入る前に、すべての画像が同じ高さにスケーリングする必要があります。それは、次に、入力円形層の特徴ベクトルのシーケンスとして特徴ベクトル系列を抽出する図層成分のコンボリューション特性から生成されます。図を生成するために、左から右へ、各列における特徴配列に特異的にベクター、機能を備えています。これは、i番目の特徴ベクトルは、図のi番目の列のすべての機能に接続されていることを意味します。我々は、各列の幅は、単一ピクセルに固定されている設定しました。

畳み込み層、及び最大細胞層機能は、局所領域内の要素の活性化を行うので、並進不変です。したがって、元の画像特徴マップの各列に対応する矩形領域は、(として受容野と呼ばれる)、及びこれらの矩形領域から同じ順序で列を、対応する図の特性に左右します。図2に示すように、特徴ベクトルは、受容野の各シーケンスに関連付けられ、その領域の画像記述子とみなすことができます。

 

受容野:図2の各入力シーケンスに関連付けられた特徴ベクトルは、受容野画像を抽出し、特徴ベクトルが領域と考えることができます。

2.2。シーケンスのアノテーション

ループ層として畳み込みの上に構築された双方向円形の深いニューラルネットワーク層。レイヤ予測ループ配列ここで、X = X1、...、XT、各ラベル配布フレームXTのYT。トリプルループ層の利点。まず、RNNは、キャプチャシーケンスのコンテキスト内で強力な能力情報を持っています。より安定した画像認識配列に基づくコンテキストプロンプトを使用するよりも便利のために、各シンボルの独立した処理。シーンテキスト認識では、例えば、連続するフレームのワイドキャラクタ(図2参照)を完全に記述するために必要とされ得ます。加えて、文脈から見たときに不鮮明区別しやすい文字のいくつかは、例えば、文字の高さを比較することにより、代わりにそれらの各々を同定する、それぞれ、「IL」を識別することが容易です。第二に、RNNは、私たちは、統合ネットワークに畳み込みループ層と層を一緒にトレーニングすることができ、すなわち、畳み込み層、その入力にエラー差を逆伝播することができます。第三に、RNN開始から任意の長さの動作シーケンスの仕上がりに。

その入力と出力層との間の接続を有する隠れ層からRNN従来の手段。その入力として入力された現在および過去の状態XTを受けながらフレームをXTシーケンスを受信するたびに、それは、その内部状態HTを更新する非線形関数を非線形関数を使用します。そして、予測は基づいています。このように、過去のコンテキスト{{XT「} t」は<Tが捕捉され、予測に用いられます。しかしながら、従来のセルRNNに伴う問題は、[7]の勾配を格納することができるコンテキストの範囲、及びトレーニングプロセスに負担を制限する、消滅します。場合、メモリ長[18,11](LSTM)RNNは、この問題を解決するための特別に設計されたユニットです。記憶部三の複数のゲート、すなわち、入力、出力、及び忘却ゲートからLSTM(図3)。概念的に、記憶部は、過去のコンテキストを格納し、入力と出力ゲート部は、コンテキストが長い可能記憶します。一方、記憶部は、ドアをクリアし忘れていてもよいです。LSTM特別なデザインは、それは多くの場合、配列に基づいて画像に生じる長距離依存関係を、キャプチャすることができます。

 

図3の構造(A)LSTM基本ユニット。LSTM単位モジュール三のゲート、すなわち、入力ゲート、ゲートドアの出力を含み、忘れ。(B)双方向LSTM私たちの論文を用いた構造の深さ。(左から右)に合併前と後の結果で双方向LSTMにLSTM(右から左)。双方向LSTMの深さ双方向LSTM結果を複数積層。

LSTMは、それが過去のコンテキストを使用して、方向性です。しかし、画像シーケンスに基づいて、二つの方向が相互コンテキスト有用と相補的です。したがって、我々は、2 LSTM、双方向LSTMに前後の組み合わせを[17]に従います。さらに、図に示す暗い双方向LSTMを与えるために、双方向LSTMを複数積層。3.B. 抽象深い構造は、音声認識タスクで浅いより高い抽象レベルを可能にし、パフォーマンスの大幅な改善を行っている[17]。

図に示した矢印の反対方向に、エラー伝搬。3.Bループ層、すなわち、逆伝播時間(BPTT)。シーケンスの動作特性へのマッピングは、逆畳み込み層にフィードバックされるループ層の下部に、違いは、配列が接続マッピングされ拡散されます。実際には、我々は、畳み込み層と層のサイクルの間のブリッジとして、「地図・ツー・シーケンス」カスタムネットワーク層と呼ばれる作成しました。

2.3。転写

各フレームの転写はRNNタグシーケンス処理を行った予測に変換されます。数学的には、転写は、各フレームに基づいて、最も高い確率予測とタグ配列を見つけることです。実際には、転写の二つのモード、すなわち、無辞書転写および転写ベースの辞書があります。辞書には、スペルチェック辞書のように予測された配列の制約を有するラベルのセットです。ノー辞書モードでは、辞書を予測していません。辞書ベースのモードでは、最も高い確率を有するタグ配列を選択することによって予測。

タグ配列の2.3.1確率

我々は、グレーブスら[15]で定義された条件付き確率カップリング時間区分(CTC)層を使用しました。定義されたフレーム毎の予測確率タグ配列L、Lと各タグの位置が配置されている無視します。私たちがターゲットネットワークのトレーニングとして負の対数尤度関数の確率を使用する場合したがって、我々は労働の単一文字位置のラベルを避けるために、画像とその対応する配列をタグ付けする必要があります。

簡単に説明条件付き確率の式は次の入力は、Tはシーケンスの長さである配列です。『ブランク』タグ表現 - Lは、すべてのタグ(例えば、すべての文字)タスク、を含む、請求ここで、集合L「であり、その各々は、LU確率分布を=。Tは長さである配列に定義された配列のマッピング関数Bへの配列。Bは、最初の重複タグを削除し、ブランクを削除し、πのLにマッピング。例えば、Bは "-hh-EL-LL-OO - " であろう( - ブランク示す) "ハロー" にマッピングされます。その後、Bは、確率の和の全πLに対する条件付確率マップのように定義されます。

 

確率は時刻tにおけるラベルπTの確率であるとして、Πが定義されています。なぜなら指数加算用語の数に、直接計算式は、計算上実行不可能です。しかし、式(1)に記載のフォワードアルゴリズム[15]を使用して効率的に計算することができます。

2.3.2ませ辞書転写

このモードでは、配列は、予測として*式1で定義された最も高い確率Lを有します。厳密解が見つかったための可能な方法がありませんので、我々は戦略に[15]を使用していました。近似により求めたL *配列は、即ち、結果のシーケンス内の各タイムスタンプを標識する最大確率πTTはL *にマッピングされます。

2.3.3転写に基づく辞書

辞書ベースのモデルでは、各試験サンプルを辞書Dに関連しています 基本的に、タグ配列は、式1辞書確率、すなわちで定義された最高の配列を有する条件を選択することによって識別されます.. しかし、大規模な辞書のために、例えばのhunspellスペル50,000単語辞書チェックする[1]、辞書の全数探索は、すべてのシーケンスが辞書1を計算式、および最も高い確率を選択することが、非常に時間がかかります。この問題を解決するために、我々は一般的に編集距離メトリックの実際の結果に近いが、転写予測辞書なしでタグ配列によって2.3.2で説明したように、ことを観察しました。これは我々が「δが最大編集距離、Lであり、最近傍候補ターゲットNδ(L)」に検索を制限することができることを意味し、Yは、非辞書モードで転写から配列です。

 

BKツリーデータ構造を使用することができる[9]効率的に特異的メトリックツリーに適合離散距離空間である、候補対象Nδ(L「)を見つけます。D | |辞書のサイズであるBK木探索時間の複雑さがあります。したがって、この方式は、簡単に非常に大きな辞書に拡張することができます。我々のアプローチでは、辞書オフラインBKは、ツリーを構築します。その後、私たちは木がクエリー配列を、距離δ編集以下見つけることによって、オンラインクイック検索を実行します。

2.4。ネットワークトレーニング

トレーニングセットを表し、訓練画像は、実際のタグ配列されています。目標は、負の実対数尤度の条件付き確率を最小限に抑えることです。

 

YIは、シーケンス層と巡回畳み込み層から生成されます。目的関数のコスト値は、画像とその実際のタグ配列から直接計算されます。したがって、ネットワークは、トレーニング画像に加えて、個々の成分の全てをマークするためにトレーニング画像およびシーケンス、手動プロセス一対の端と端ができます。

確率的勾配降下法(SGD)の訓練を使用したネットワーク。グラデーションは、バックプロパゲーションアルゴリズムを計算します。前に使用するための誤差逆伝播アルゴリズムに、[15]に記載されているように、転写層において、特に。ループ層に、逆伝播時間を用いて(BPTT)誤差が計算されます。

最適化のために、私たちはADADELTA [37]は、自動的に各次元の学習率を算出し、使用しています。従来の[31]勢いの方法と比べて、ADADELTA手動学習速度を設定する必要があります。さらに重要なことは、我々はその最適化の収束速度のADADELTAの使用速い勢い方法よりも発見しました。

3.実験

提案CRNNモデルの有効性を評価するために、我々は音楽シーンのテキスト認識と標準ベンチマークデータセットの同定に実験を行い、これらは視覚的なタスクに挑戦しています。トレーニングの設定のデータ収集とテスト、3.1節を参照してください、詳細な設定は、3.2節シーンテキスト画像、3.3節で報告された結果の総合的な比較を参照してくださいCRNN。さらに3.4節で一般化CRNNを実証するために、我々は、音楽認識タスクに提案されたアルゴリズムをテストしました。

3.1。データセット

すべての実験シーンテキスト認識のために、我々は、使用Jaderbergら[20]は、トレーニングデータとして合成データセット(シンセ)を発表しました。データセットは、単語に対応する8百万円、実践的なトレーニング画像が含まれています。このような合成エンジンによって生成された画像及びテキストは非常に現実的です。私たちのネットワークは、かつてそのトレーニングデータ上の任意の微調整せずに、他のすべての現実世界のテストデータセットに訓練され、テストされた合成データに対して行いました。でもCRNNモデルは純粋な合成テキストデータに訓練を受けたが、それは本当の画像、テキスト認識の標準的な参照データセットにうまく機能しています。

シーンテキスト認識、すなわちICDAR 2003(IC03)、ICDAR 2013(IC13)、IIITの5K-語(IIIT5k)とストリートビューのテキスト(SVT)の性能を評価するために人気の参照データの4セットがあります。

テキストバウンディングボックスタグ付けされた画像のシーンを含むIC03 [27] 251、テスト・データ・セット。Wangら[34]は、我々は、英数字以外の文字や画像、テキストの以下の三個の文字を含み、テスト・セットが860枚の画像トリミングた取得無視します。Wangら[34] 50ワード定義することによって、各検査画像に関連付けられた辞書。すべての語彙を組み合わせることにより、各画像の完全な辞書を構築します。また、私たちは辞書に50000個の単語辞書をチェックするためのhunspellスペルからなる[1]単語を使用しました。

IC13 [24]テストデータセットは、IC03におけるデータの大部分を継承しました。これは、1015年の実際の言葉トリミングされた画像が含まれています。

IIIT5k [28]は、テスト画像は、インターネット3000カットから集められた単語が含まれています。50の各ワード1000個の単語と関連辞書画像。

SVT [34]テストデータは、Googleのストリートビューストリート組成物から収集した249の画像を設定してから。彼らは、647枚のワードの画像からカットされています。各画像は、Wangらの定義によるワード[34]単語辞書50を有しています。

3.2。実装の詳細

実験では、表1に要約されているネットワーク構成を使用します。畳み込み層アーキテクチャは、VGG-VeryDeep [32]のアーキテクチャに基づいています。英語のテキスト認識にそれが適用されるようにするために、それが調整されました。第三および第四の層において最大プール、我々は大きさ1×2ウィンドウの代わりに、伝統的なフラット正方形の長方形のプールを使用します。この調整機能マップは大きな幅を生成し、そのため長い署名配列を有します。例えば、画像は、10個の文字を含む配列が25のフレームから生成することができ、一般的に100×32のサイズです。これは、ほとんどの英語の単語の長さよりも長くなっています。最も重要なことには、長方形の細胞受容野は、実施例IとLのために、文字の一部が狭い形状を有している識別するために役立つ矩形窓(2)を生成します。

表1は、ネットワーク構成をまとめたものです。最初の行はトップです。K、S、P核の大きさ、及び充填ステップサイズを表します。

 

畳み込み深ネットワーク層だけでなく、循環層だけではありません。どちらも、よく知られたハードトレーニングです。私たちは、この手法は、深さのトレーニングネットワークのために非常に有用である[19]そのバッチの正規化を発見しました。なお、第1の層5と第2の層6畳み込み後に正規化二つのバッチに挿入されます。トレーニングプロセスを加速する大きなバッチ正規化層を使用してください。

我々はフレームワークTorch7ネットワーク内の[10]を達成する、カスタムLSTM部(Torch7 / CUDA)、転写層(C ++)、及びBKツリーデータ構造(C ++)を使用して実装。NVIDIA(R)テスラ(TM)K40のGPUワークステーションのための2.50 GHzのIntel(R)XeonプロセッサE5-2609 CPU、および64ギガバイトのRAMを搭載した実験では。パラメータρとADADELTA訓練ネットワークは0.9に設定されています。研修中は、すべての画像は、訓練プロセスをスピードアップするために、100×32にスケーリングされています。トレーニングプロセスは収束に到達するのに約50時間かかります。32の高さをスケーリングテスト画像。幅と高さのスケーリングに比例するが、少なくとも100個の画素です。0.16s /サンプルの平均テスト時間、IC03はない辞書で測定します。約50K辞書検索の辞書IC03が適用され、パラメータδは3に設定されています。各テストサンプルの平均コスト0.53s。

3.3。比較評価

最新の技術と最新モデルのすべての認識精度を表2に示したように[23,22,21] CRNN奥行きモデルに基づく方法を含む、4つの一般的なデータセットに得提案しました。

表2。上の4つのデータセットの認識正解率(%)。2行目、「50」、「1K」、「50K」と「フル」に使用する辞書では、「なし」は、認識辞書がないことを示します。その出力は90K辞書に限られているため* [22]厳密な意味では、何の辞書ではありません。

 

辞書ケース内の制約がありますが、我々のアプローチは、最新の方法のほとんどに常に優れており、平均的なビート[22]は最高のテキストリーダーを提案しました。具体的には、[22]、我々は唯一の「フル」の辞書によるIC03に低い性能を達成するために、IIIT5kとSVTに優れた性能を得る比較。モデルは、各単語がクラスラベルに関連付けられていること、特定の辞書に訓練されている[22]、注意してください。そして[22]異なる、CRNN認識単語辞書に公知の任意の、及びそのような文章または他のワード中国語スクリプトとしてランダムな文字列(例えば、電話番号)を、処理することができます。そのため、すべてのテスト・データ・セット上のCRNN結果は、競争力があります。

辞書拘束されていない場合は、SVTでの我々のアプローチは、まだ最高のパフォーマンスを達成したが、IC03とIC13の[8,22]の背後にあるいくつかの方法がまだあります。表2中の空欄に、「なし」は、この方法は、認識辞書なしで適用することができない表していない、あるいは制約のない認識精度の場合に報告することができないことに留意されたいです。私たちの方法は790万言葉が本当の文字画像注釈レベルのトレーニングを持って使用する、トレーニングデータとしてワードクラスラベルとテキストの合成のみを使用し、PhotoOCR [8]非常に異なります。[22]しかし、それは厳密な辞書制約のないモデルで言及されていない、その大辞典の恩恵を受けるために、制約なしの辞書の場合に最高のパフォーマンスを報告しました。この意味で、無制限の辞書テーブルの我々の結果はまだ有望です。

表3に示すように、さらに他の方法と比較してテキスト認識を理解するために、提案したアルゴリズムの利点は、我々は、E2E電車、コンベンションFTRS、CharGTフリー、無拘束モデルサイズという名前のこれらの特徴、機能のいくつかについての包括的な比較を提供します図。

表3。様々な方法の比較。属性を比較すると、1)研修終了(E2Eトレイン); 2)画像からの学習の代わりに、前記手動機能設計(コンベンションFTRS)直接の畳み込みを使用して; 3)トレーニング中に実際の文字のバウンディングボックスを必要としません( CharGTフリー); 4))(制約のない事前定義された辞書に限定されるものではない; 5)モデルのサイズ(もしエンドユースモデル)は、モデルパラメータの数で(モデルの大きさを測定するため、M)は、数百万です。

 

電車E2E:この列は、モデルがトレーニングに、このアプローチは、エレガントかつクリーンであることを示唆し、任意の前処理なしか、いくつかの別個の工程の後、トレーニングを端から端までのテキストを読み取るために使用することができるかどうかを示すことです。[22、21]を含む、表3、ニューラルネットワークモデルの唯一の深さから見て、このような特性を有するCRNNに基づくことが可能です。

FTRS CONV このリストの方法を用いてコンボリューション特性に直接画像を訓練するか、手動での基本的な特徴表現などから学習されます。

無料-CharGTとしてこの列には、必要に応じて、トレーニングのための文字レベルのモデルを示すマークが付け。入出力CRNN配列タグは、したがって、文字レベルで示されているので、必要ではありません。

制約なし:この列には、トレーニングは、辞書の特定のモデルに限定されているかどうかを示すために使用され、ワードが処理されるか、またはすることができません辞書外ランダムシーケンスかどうか。埋め込まれたタグ[5、14]による最近の関心にもかかわらず、学習強化[22]は非常に競争力のあるパフォーマンスを実現し、モデルに学ぶが、それらは特定の辞書に限定されています。

サイズモデルこの列には、ストレージスペースの学習モデルを報告します。CRNNでは、全ての層の重量との接続を共有し、完全に接続された層を必要としません。したがって、はるかに得られた変異体のパラメータCRNN CNNモデル[22、21]、[22、21]における結果の数よりも少ない、モデルが非常に小さいです。我々のモデルパラメータ830万、のみ33メガバイトのRAM(4バイト単精度浮動小数点を使用して、各パラメータ)を有し、従って容易にモバイルデバイスに移植することができます。

表3は、他の方法と競合CRNNの利点を実証する、異なる方法の違いを詳述します。

パラメータδの効果を試験するために、我々は、式2におけるδの異なる値を試します。図4において、認識精度は、δの関数としてプロットされます。複数の候補ターゲットにΔ大きい鉛、それによってより正確な転写ベースの辞書。長いBKツリー検索時に起因する一方、および試験のための候補配列の多数に、増加δと計算コストが増加します。実際には、我々は、δは、精度と速度との間の妥協点として3 =選択します。

 

図4、図青線:δ認識精度の関数として示します。レッドストライプ:各サンプル用の辞書検索時間。IC03データセットに対して実行されたテストを使用して50K辞書。

3.4。認識スコア

一般的に音符の順に配置された楽曲をお読みください。画像認識スコアは、光の音楽認識(OMR)問題と呼ばれています。以前の方法は、典型的には、画像前処理(主にバイナリ)、ライナーノーツ、および単一の検出識別[29]を必要とします。私たちは、シーケンス、CRNNと画像予測から直接ノートのシーケンスとして認識問題をOMRます。簡単にするために、我々は、すべてのコードを無視し、すべての音楽は、同じメジャースケール(Cメジャー)持っていると仮定して、音を知っています。

我々の知る限りでは、公共のデータセットを評価するためのピッチ認識アルゴリズムはありません。必要なCRNNのトレーニングデータを準備するために、我々は2650年から画像を収集している[2]。各画像は、スコアセグメント3-20は、ノートが含まれています。私たちは、すべて手動で本物のタグ配列(トーンのシーケンスではありません)画像にタグを付けます。強化265K訓練サンプルに回転、拡大縮小、ノイズや損傷スルー画像を収集し、自然な背景画像に置き換えます。試験のために、我々は、3つのデータセットを作成した:1)「クリーン」、[2]から収集された画像260を含みます。図に示す例5.A; 2)上記補強ポリシーを使用して作成された使用、「合成」「純粋」。図中でいくつかの5.Bを示すように、それは、200個のサンプルが含まれている、携帯電話のカメラ200枚ので撮影した画像を音楽の本が含まれている3)「現実世界」、。図5.C例。

 

収集された図5(a)は、クリーンスコア画像[2]。(B)スコア画像の合成。(C)は、携帯電話のカメラを使って現実世界の映像を獲得します。

私たちの限られた学習データのために、私たちはCRNNの容量を低減するように構成された単純化したモデルを使用します。表1に指定された構成とは異なり、我々は4と6の畳み込み層、二層を交換するLSTMを一方向LSTMの2つの2層を除去します。ネットワークと対応する画像対タグ配列トレーニング。2)平均編集距離、すなわち、真値からトーンの予測平均編集順序の間、すなわち、1の割合認識性能:,)音楽セグメントの断片の正しい識別の精度を評価するための2つの方法があります。比較のために、我々は、カペラSCAN [3]とをPhotoScore [4]の2つの市販OMRエンジンを評価しました。

結果を表4にまとめました。CRNN 2つの商用システムよりもはるかに良いです。クリーンなデータセットのパフォーマンスにカペラスキャンとをPhotoScoreシステムはかなり良いですが、その性能は合成と実世界のデータの面で大幅に減少しました。主な理由は、彼らが強い値化対象ステーブ・注意事項に依存しているということですが、不良による光、騒音や損傷散らかった背景には、二値化は、多くの場合、合成データと実際のデータに失敗します。一方、CRNN畳み込みは、ノイズや歪みに対してロバスト特性を有します。さらに、CRNN循環層コンテキスト情報は、スコアに利用することができます。各ノートには、だけでなく、自分自身を識別されていますが、近くのようにノートを識別します。従って、ノートとその近傍とを比較するノートの数によって識別することができる、例えば、それらの垂直位置を比較します。

 

私たちの収集したデータセット、CRNN OMRシステムとピッチの2種類の市販認識精度の比較表4。平均断片編集距離(「断片精度速度/平均編集距離」)によって性能および精度を評価します。

それは容易に認識問題に基づいて、他の画像シーケンスに適用することができるので、結果は一般CRNNを示し、それは、最小限のドメイン知識が必要です。カペラスキャンとはPhotoScoreと比較すると、私たちのシステムはまだ予備的なCRNNをベースにしており、多くの機能を欠いています。しかし、それは、OMRのための新たなソリューションを提供し、ピッチの面で有望特定する能力を実証しました。

4.まとめ

本稿では、畳み込みリカレントニューラルネットワーク(CRNN)と呼ばれる新しいニューラルネットワークアーキテクチャ、統合された畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)の利点を提案します。CRNNは、異なるサイズの入力画像を取得し、異なる長さの予測を生成することができます。これは、粗粒(例えば単語)のラベル上で直接実行、訓練段階で詳細に(文字等)、個々の要素をマークする必要はありません。放棄CRNN層に完全に接続されたニューラルネットワークは、従来のに使用されるので、それにより、よりコンパクトで効率的なモデルを得ることができます。すべてのこれらの特性は、画像認識配列に基づいた優れたCRNN方法作ります。

ステージ基準テキスト認識データセット上の実験では、従来の方法、および他のCNNアルゴリズムとRNNと比較して、CRNNは競合的または優れた性能を達成することを示しています。これは、提案したアルゴリズムの利点を確認しました。さらに、光CRNN音楽認識(OMR)、基準データセットに一般CRNNを検証し、他の競争相手よりも有意に良好です。

実際、CRNNは、一般的なフレームワーク(例えば、文字認識)技術は、画像シーケンスに関連する他の問題に適用し、予測することが可能です。さらに、CRNNを加速実際のアプリケーションのために、それはより実用的にするために、それは探検する価値別の将来の方向性です。

おすすめ

転載: www.cnblogs.com/fyh1420/p/11613325.html