インタラクティブなアプリケーションといくつかの重要なモジュール、スマートフォン

情報交換や上記の言語のように、人間のためにそれを行うには非常に簡単なことです。しかし、音声認識、機械の観点から、それはそう単純で、ロジック技術ではないでしょうし、それは非常に複雑な関係します。

また、自動音声認識(AutomaticSpeechRecognition、ASR)としても知られている音声認識、コンピュータを指すは自動的に対応するテキストに人間の音声コンテンツを変換し、人間の技術に提示することができます。音声認識技術は、歴史の50年が経ちました。近年では、音声認識技術が広く始まったばかり適用されています。モバイル機器、ウェアラブルデバイスの普及、情報家電機器、スマートフォンやロボットシステムなど、インタラクティブな対話は、人間とコンピュータの相互作用の焦点となっています。

図1は、音声認識の一部
音声認識は、以下の基本的なモジュールで構成:情報処理及び取り扱い特性、音響モデル(AM)、言語モデル(LM)、発音(音声)辞書と×××。

信号処理及び特徴抽出。
これは、音声認識システムの第一段階、第1の部分です。元のオーディオ信号を受信しながらも適切な抽出機能は、その後の研究のための代表的なモデルベクトル、それによって行われます。信号処理では、音声認識率が最適解と呼ばれる、比較的ノイズの多い環境でも可能です。

音響モデル。
言及した音響は、一般的に単語、音節、音響モデルを経由して、基本的な単位を音素モデル化することができる有名な隠れマルコフモデルの音声認識システムを言及する必要があり、その後、モデルを生成します。簡単に言えば、それは、モデリング、音響出力への言語出力を鳴らすことです。

言語モデル。
モデリングシステム要件については、言語モデル言語は、同定しました。言語モデルの多様性、および文脈自由文を含んでいるが、言語モデルとして使用することができます。今日では、ほとんどの音声認識システムは、一般的にN-gramモデルとその変異体を使用して計算。その訓練と学習単語と単語間のリンクを想定して単語列の可能性を推定することが可能です。

辞書の発音。
発音辞書は、システムが収集し、自分の発音を扱うことができる単語が含まれています。発音辞書は、2つの成分が×××復号作業の状態空間探索を形成する接続、モデリングは、モデリングユニットを意味音響モデルと言語モデルとの間のマッピング関係を得ることができます。
発音辞書は、単語やコレクションを扱うことができるシステムの彼らの発音が含まれています。音声辞書取得部と音響モデル言語モデルを構築する状態空間探索を形成し、それらを接続するために、ユニット間のマッピング関係を構築し、互いの両方の組み合わせは、復号化動作×××のために使用することができます。

×××。
これは、ロボットを本当に使いやすい資格の電話がコア音声認識システムの一つとして、ここでは依存音声認識システムの最も中心的な部分の一つであり、その主なタスクは、音声信号入力の配列の特徴を読み取るための責任があり、別の音響モデル、言語モデルと発音辞書、単語列出力信号をデコードする最大確率に従って。
復号された音声認識は、第1の信号処理及び特徴抽出を符号化するプロセスは、符号化の過程で元の音声から得られた音声ベクトルです。それは、後に音声ベクトルを復号化し、復号化は、上述した音響モデルと言語モデルを必要とします。

図2は、音声マシンを認識する方法を
一つだけコアタスクは、テキストにして、提示されたデータをコンパイルすることができ、ロボットに人間の言葉を話すことがあるので、ビジョンのためのコンピュータ室に、音声認識は、より純粋です。それは音声をテキストに変換でき、簡単に言えば、これらのテキストフレームは、音素の音声をカットすることで、その後の単語に組み合わせます。

3、アプリケーションと音声認識の開発
技術が魅力を成熟ためには、近年のヨーロッパへの人工知能製品の上昇は、それは主に電話、グループ通話潜在的なクライアント経由例として知能ロボットであることができ、電話、ロボット、を出産した、行動通信企業は、顧客の意向を選ぶのに役立つ情報フィルタリング、。電話会社は、ロボットが人件費を削減し、効率を向上させることができます。これらの分野のアプリケーションが大幅に上記の人件費を削減することができ、多くの企業の開発は形式的ではないでしょう。

上記の方向からの音声認識技術は、まだ、このような音声認識方言など多くの場所で改善する必要があるものの、高騒音環境での音声認識は、まだ行くにはいくつかの方法で、大規模です。しかし、それは否定できない、情報技術の継続的な発展に伴い、音声認識技術は、画期的なを取得していきます、開発のためのより広範なスペースがあります。

おすすめ

転載: blog.51cto.com/14387331/2411431