スマート スピーカー戦争は本格化しており、問題はフルスタック音声認識エンジニアになるにはどうすればよいかということです。

11 月 16 日、Baidu は Raven スマート スピーカーと DuerOS 開発ボード SoundPi をリリースしましたが、これまでのところ、別の国内大手企業がスマート スピーカー戦争に参入しています。これまでのところ、国内の戦場ではアリババ、JD.com、テンセント、バイドゥ、シャオミ、iFlytekなどの巨人が挙げられ、海外ではApple、Microsoft、Amazon、Google、Facebook、Samsungなどが挙げられます。これらの巨人は世界のトップを占めています。時価総額ランキング一覧. 一方で、将来の人工知能時代における音声参入を目指して競合しており、アマゾンやアリババまでもが率先して補助金合戦を何としても開始した。これらの世界的巨人間の熾烈な競争は、今後 10 年間に非常に重要な影響を与えるものであると同時に、急速なキャリア開発の機会の新たな波でもあります。

現在の音声インテリジェンスの核心は、音響の問題と意味理解です。市場の需要の急増に伴い、技術的な欠点の 1 つを補うことができるフルスタック音声認識エンジニアが職場で人気の商品となり、そのような人材の育成が求められています。コストは非常に高く、少なくとも今後 10 年間は大手企業と新興企業が争う中核となる人材となるでしょう。

では、フルスタック音声認識エンジニアになるにはどうすればよいでしょうか? 中国科学院音響研究所の元准研究員であり、Sound Intelligence Technology の創設者である Chen Xiaoliang 氏は、特にこのトピックに関する記事を執筆するという私たちの招待に応じてくれました。知識を縦と横に結びつけ、実践と組み合わせてわかりやすく解説した記事で、音声認識を総合的に理解するのに非常に役立ちます。その後、AI Technology Basecamp は、皆様のお役に立てればと考えて、いくつかの問題について簡単にフォローアップしました。

                                                 **语音识别基础知识**

【数学と統計】

数学はすべての科目の基礎であり、高度な数学、数式、関数解析などの科目は必要な基礎知識であり、確率論や数理統計も音声認識の基礎科目です。

【音響学・言語学】

音響基礎、理論音響、音響測定などは音響学の基礎科目であり、音響分野をより深く学ぶことができます。言語学入門、言語哲学、意味論的ミニマリズムと語用論的多元主義、文法化と意味論的グラフなどの知識は、言語モデルと音声インタラクション UI デザインを理解するのに非常に役立ちます。

【コンピュータサイエンス】

信号システム、デジタル信号処理、音声信号処理、離散数学、データ構造、アルゴリズム入門、並列コンピューティング、C言語入門、Python言語入門、音声認識、ディープラーニングなどの科目も基礎知識が必要です。

                                             **语音识别专业知识**

音声認識の知識体系は、専門的基礎、サポートスキル、応用スキルの 3 つの主要な部分に分けることができます。音声認識の専門的基盤には、アルゴリズム基盤、データ知識、オープンソース プラットフォームも含まれており、アルゴリズム基盤は、音響メカニズム、信号処理、音響モデル、言語モデル、デコード検索など、音声認識システムの中核となる知識です。

ここに画像の説明を挿入します

【プロフェッショナルの基礎】

アルゴリズムの基礎

音響メカニズム: 発音メカニズム、聴覚メカニズム、言語メカニズムが含まれます。発音メカニズムでは主に人間の発声器官と音声生成プロセスにおけるこれらの器官の役割について説明し、聴覚メカニズムでは主に人間の聴覚器官、聴覚神経、およびそれらの区別と処理の方法について説明します。言語メカニズムでは、主に人間の言語の分布と組織について研究します。この知識は、理論的なブレークスルーとモデルの生成にとって非常に重要です。

信号処理音声強調、ノイズ抑制、エコーキャンセル、残響抑制、ビームフォーミング、音源定位、音源分離、音源追跡などを含む。詳細は次のとおりです。

1. 音声強調: これは狭義で、自動ゲインまたはアレイ ゲインを指し、主にピックアップ距離の問題を解決します。自動ゲインは一般にすべての信号のエネルギーを増加させますが、音声強調は有効な音声信号のエネルギーのみを増加します。

2. ノイズ抑制:音声認識ではノイズを完全に除去する必要はありませんが、比較的通信システム側でノイズを完全に除去する必要があります。ここでいう騒音とは、一般に空調騒音などの環境騒音を指します。この種の騒音は通常、空間的指向性を持たず、特にエネルギー的なものではありません。通常の音声を覆い隠すことはなく、音声の明瞭さと明瞭さに影響を与えるだけです。 。この方法は、強い騒音環境での処理には適していませんが、日常的なシナリオでの音声対話には十分です。

3. 残響除去:残響除去の効果は音声認識の効果に大きく影響します。一般に、音源が音を発しなくなると、室内では音波が反射や吸収を繰り返し、一定時間複数の音波が混ざり合っているように見える現象を残響といいます。残響は音声信号処理に重大な影響を及ぼし、方向探知の精度を低下させる可能性があります。

4. エコーキャンセル: 厳密に言えば、これはエコーではなく「自己ノイズ」と呼ばれます。エコーは残響の拡張概念であり、両者の違いはエコーの時間遅延が長いことです。一般に、人間は100ミリ秒以上遅れた残響をはっきりと区別することができ、音が同時に2回現れるように感じられ、これをエコーと呼びます。実際、これはEchoスピーカーなどの音声対話デバイス自体が発する音を指しており、曲の再生時にAlexaを呼び出すと、実際にマイクアレイが再生中の音楽とユーザーが呼び出したAlexaの音声を収集します。明らかに、音声認識はこれら 2 種類の音を認識できません。エコーキャンセリングとは、音楽情報を削除してユーザーの音声のみを残すもので、エコーキャンセリングと呼ばれるのは、単にみんなの習慣を継続するためであり、実際には不適切です。

5. 音源の方向探知: ここでは音源の測位は使用されません. 方向探知と測位は異なります. 民生用マイクアレイは方向探知を行うことができますが, 測位にはより多くのコスト投資が必要です. 音源方向探知の主な機能は、その後のビーム形成のために、音源に話しかける人間の声を検出することです。音源方向の検出は、エネルギー法またはスペクトル推定に基づくことができ、TDOA テクノロジーもアレイで一般的に使用されます。音源方向探知は一般的に音声ウェイクアップフェーズで実装されますが、実際には VAD 技術もこのカテゴリに含めることができ、将来の消費電力を削減するための重要な要素でもあります。

6. ビームフォーミング:ビームフォーミングとは一般的な信号処理手法であり、ここでは一定の幾何学的構造に配置されたマイクアレイの各マイクの出力信号を処理(重み付け、遅延、加算など)する手法を指します。空間指向性を形成します。ビームフォーミングは主に、人間の声も含むメインローブの外側の音の干渉を抑制します。たとえば、複数の人がEchoの周りで話している場合、Echoはそのうちの1人の音声のみを認識します。

エンドポイント検出: エンドポイント検出は、英語ではVoice Activity Detectionであり、 VADと呼ばれます。その主な機能は、音が有効な音声信号であるか非音声信号であるかを区別することです。VAD は音声認識において文間の休止を検出する主な方法であり、低消費電力を考慮する重要な要素でもあります。VAD は通常、信号処理手法を使用して行われますが、ここで分けているのは、現在では VAD の役割が実際にはより重要であり、VAD も通常は機械学習手法に基づいて行われるためです。

特徴抽出: 音響モデルは通常、原音データを直接処理することができないため、原音信号から時間領域で何らかの方法で固定特徴列を抽出し、音響モデルに入力する必要があります。実際、ディープラーニングによってトレーニングされたモデルは物理法則から逸脱することはありませんが、各次元で振幅、位相、周波数、相関などのより多くの特徴を抽出します。

音響モデル: 音響モデルは音声認識において最も重要な部分であり、音響学とコンピュータサイエンスの知識を統合し、特徴抽出部で生成された特徴を入力として使用し、可変長特徴シーケンスの音響モデルスコアを生成します。音響モデルの中核は、特徴ベクトルの可変長と音響信号の変動性の問題を解決する必要があります。実際、言及される音声認識の進歩はすべて、基本的に音響モデルの進歩を指します。音響モデルは長年にわたり改良が重ねられ、すでに多くのモデルが存在します。各段階で最も広く使用されているモデルを紹介します。実際には、現在では多くのモデルが混在しており、各モデルの利点を活かして、シーン適応がより堅牢になります。
1. GMM (ガウス混合モデル) は、フーリエ スペクトル音声特性に基づく統計モデルであり、GMM の重み付け係数と各ガウス関数の平均と分散は、継続的な反復最適化によって取得できます。GMM モデルのトレーニング速度は速く、音響モデルのパラメータは小さく、オフライン端末アプリケーションに適しています。深層学習が音声認識に適用される前は、GMM-HMM ハイブリッド モデルが常に優れた音声認識モデルでした。ただし、GMM は非線形またはほぼ非線形のデータを効果的にモデル化することができず、コンテキスト情報を使用するのが難しく、モデルを拡張するのが困難です。
2. HMM (隠れマルコフ モデル) は、隠れマルコフ モデルであり、隠れた未知のパラメーターを使用してマルコフ プロセスを記述し、観測可能なパラメーターからプロセスの隠れパラメーターを決定し、これらのパラメーターを使用してさらに分析するために使用されます。HMM は音声音響系列データ、特に時間的特徴を推定できる統計的分布モデルですが、これらの時間的特徴は HMM の時間的独立性の仮定に依存しているため、話速、アクセント、音響的特徴などの要素を相関させることが困難です。 。HMM の拡張モデルは数多くありますが、そのほとんどは小規模な語彙の音声認識にのみ適しており、大規模な音声認識は依然として非常に困難です。
3. DNNDeep Neural Network、つまりディープニューラルネットワークは音響モデルで使用される初期のニューラル ネットワークです。DNN は混合ガウス モデルに基づいてデータ表現の効率を向上させることができます。特に、DNN-HMM ハイブリッド モデルは音声認識率を大幅に向上させます。DNN-HMM は限られたトレーニング コストで高い音声認識率を達成できるため、音声認識業界では今でも一般的に使用されている音響モデルです。
4. RNNリカレント ニューラル ネットワーク、 CNN、畳み込みニューラル ネットワーク、畳み込みニューラル ネットワーク。音声認識の分野におけるこれら 2 つのニューラル ネットワークの応用は、主に可変長のコンテキスト情報の使用方法の問題を解決します。CNN/RNN は、CNN/RNN よりも優れたパフォーマンスを発揮します。発話速度の堅牢性に関する DNN。その中で、RNN モデルには主に LSTM (多重隠れ層長短期記憶ネットワーク)、ハイウェイ LSTM、Residual LSTM、双方向 LSTM などが含まれます。CNN モデルには、時間遅延ニューラル ネットワーク (TDNN)、CNN-DNN、CNN-LSTM-DNN (CLDNN)、CNN-DNN-LSTM、Deep CNN などが含まれます。一部のモデルはパフォーマンスは似ていますが、適用方法が異なります。たとえば、双方向 LSTM と Deep CNN は同様のパフォーマンスを持っていますが、双方向 LSTM は文の終わりが認識されるまで待つ必要があるのに対し、Deep CNN には時間遅延がなく、より多くの時間がかかります。リアルタイム音声認識に適しています。

言語モデル: トレーニング コーパスを通じて単語間の関係を学習することにより、単語シーケンスの尤度を推定します。最も一般的な言語モデルは N-Gram モデルです。近年、ディープ ニューラル ネットワーク モデリング手法は、CNN や RNN に基づく言語モデルなどの言語モデルにも適用されています。

デコード検索: デコードは音声認識の速度を決定する重要な要素です。デコード プロセスでは、通常、音響モデル、辞書、言語モデルがネットワークにコンパイルされ、最大事後確率に基づいて音声認識結果として 1 つ以上の最適なパスが選択されます。確率法です。デコード プロセスは通常、動的コンパイルと静的コンパイル、または同期モードと非同期モードの 2 つのモードに分けることができます。現在普及している復号方式は、ツリーコピーによるフレーム同期復号方式である。

                                                     **语音识别数据知识**

データ収集: 主にユーザーとマシン間の会話の音声情報を収集します。一般に、近距離と遠距離の 2 つの部分に分けられます。近距離収集は一般に携帯電話に基づいて完了でき、遠距離収集は一般に完了できます。マイクアレイが必要です。データ収集では収集環境にも注意が払われており、データの用途に応じて、人口の年齢分布、性別分布、地理的分布など、音声収集の要件も大きく異なります。

データ クリーニング: 主に収集されたデータを前処理して、満足のいかない音声や無効な音声を除去し、後続のデータ アノテーションに正確なデータを提供します。

データアノテーション: 主に音声情報を対応するテキストに変換し、音響モデルをトレーニングするため、通常数万時間のアノテーションが必要ですが、音声は時系列信号であるため、比較的多くの人手を必要とします。スタッフの疲労、ラベル付けなどの要因により、エラー率も比較的高くなります。データアノテーションの成功率をいかに向上させるかは、音声認識における重要な問題でもあります。

データ管理: 主に注釈付きデータの分類管理と編成であり、データの効果的な管理と再利用に役立ちます。

データセキュリティ: 機密情報の漏洩を避けるために、主に暗号化などの音声データの安全かつ便利な処理が含まれます。

                                               **语音识别开源平台**

現在の主流のオープン ソース プラットフォームには、CMU Sphinx、HTK、Kaldi、Julius、iATROS、CNTK、TensorFlow などが含まれます。CMU Sphinx は、DSP などの低電力オフライン アプリケーション シナリオをサポートするオフライン音声認識ツールです。ディープラーニングは音声認識の WER を削減する上で重要な役割を果たすため、現在は Kaldi、CNTK、TensorFlow などのディープラーニングをサポートするツールの人気が高まっています。Kaldi の利点は、デコードや検索を含む多くの音声認識ツールが統合されていることです。 。特定のオープンソース プラットフォームの概要を表 1 に示します。
ここに画像の説明を挿入します

【サポートスキル】

音響機器

  • マイク(マイクとも呼ばれます) は、音を電子信号に変換する、つまり音響信号を電気信号に変換するトランスデューサーです。その中心的なパラメーターは、感度、指向性、周波数応答、インピーダンス、ダイナミック レンジ、信号対雑音比です。比、最大音圧レベル(または AOP、音響過負荷点)、一貫性など。マイクは音声認識の中核デバイスであり、音声データの基本的な品質を決定します。

  • 通常スピーカーと呼ばれるスピーカーは、電気信号を音響信号に変換する変換装置であり、スピーカーの性能は音質に大きな影響を与え、その中心的な指標となるのがTSパラメータです。音声認識にはエコー キャンセルが含まれるため、スピーカーの全高調波歪み要件はわずかに高くなります。

  • レーザー収音は、レーザーの反射などにより遠くの振動情報を拾い、音に戻す能動収音方式で、かつては主に盗聴の分野で使われていましたが、現在ではこの方法を音声認識に応用するのはまだ難しい。

  • マイクロ波収音. マイクロ波とは、赤外線と電波の間の波長を持つ電磁波を指します. 周波数範囲はおよそ 300MHz から 300GHz の間です. マイクロ波収音の原理はレーザー収音の原理と似ています. ただし、マイクロ波はガラスをほとんど通過しません、プラスチックおよび磁器に吸収されます。

  • ハイスピードカメラ音収音は、高速度カメラを使って振動を拾い音を復元する方式で、有視界距離と高速度カメラが必要なため、一部の特定のシーンでのみ使用されます。

コンピューティングチップ

  • DSP、デジタル信号プロセッサ、デジタル信号プロセッサは、一般的にハーバードアーキテクチャを採用しており、低消費電力と高速動作の利点があり、主に低電力音声認識の分野で使用されます。

  • ARM (Acorn RISC Machine) は、英国の企業によって設計された RISC プロセッサ アーキテクチャであり、低消費電力と高性能の特徴を持ち、モバイル インターネット分野で広く使用されており、現在はスマート スピーカーなどの IOT 分野でも使用されています。 , ARMプロセッサも使用されています。

  • FPGA (Field-Programmable Gate Array) は、ASIC 分野のセミカスタム回路で、固定カスタム回路の欠点を解決するだけでなく、限られたプログラマブル デバイス ゲート回路の欠点も克服します。FPGA は並列コンピューティングの分野でも非常に重要であり、大規模な深層学習も FPGA コンピューティングに基づいて実装できます。

  • GPU (グラフィックス プロセッシング ユニット) は、現在の深層学習分野で最も人気のあるコンピューティング アーキテクチャです。実際、GPGPU は、主に大規模な計算を高速化するために深層学習の分野で使用されています。GPU の通常の問題は、過剰な電力消費です。 . なので、一般的にはクラウド内のサーバー クラスターに適用されます。

  • さらに、主に深層学習アルゴリズムに最適化された NPU や TPU などの新しいプロセッサ アーキテクチャもありますが、これらについては大規模に使用されていないため、ここでは詳しく説明しません。

音響構造

アレイ設計は主にマイクロホン アレイの構造設計を指します。マイクロホン アレイは一般に線状、環状、球状に分けられますが、厳密にはインライン、クロス、平面、スパイラル、球状、不規則なアレイなどと表現する必要があります。マイクアレイの素子数、つまりマイクの数は2個から数千個まであり、アレイ設計では単にマイクアレイの構成とシーン内の素子数の問題を解決する必要があります。効果を確実にするだけでなく、コストも管理します。

音響設計とは、主にスピーカーの空洞設計を指します。音声インタラクション システムでは、音を収集するだけでなく、音を生成する必要もあります。また、音の品質も特に重要です。たとえば、音楽やビデオを再生する場合などです。 , 音質も非常に重要な参考指標ですが、同時に音質の設計も音声認識の効果に影響するため、音響設計もインテリジェントな音声対話システムの重要な要素です。

【応用力】

  • 音声認識の応用は、音声インタラクションの時代で最も期待されるイノベーションとなるでしょう。それはモバイルインターネットの時代と比較できます。最終的にユーザーに固執するのは音声アプリケーションです。しかし、現在の人工知能は主にインフラ整備も進んでおり、AIの普及には時間がかかるだろう。Amazon の Alexa にはすでに数万のアプリケーションがありますが、ユーザーのフィードバックから判断すると、現時点では主に次のコア技術点に基づいています。

  • 実際、音声制御は現在最も重要なアプリケーションであり、目覚まし時計、音楽、地図、ショッピング、スマート家電制御などの機能が含まれますが、音声制御はより正確かつ高速な音声認識を必要とするため、音声制御は比較的困難です。

  • 音声文字起こしは、会議システムやスマートコート、スマート医療などの分野に特化しており、主にユーザーの音声をリアルタイムでテキスト化して議事録、裁判記録、電子カルテなどを作成します。

  • 言語翻訳には主に異なる言語間の切り替えが含まれますが、音声転写に基づいたリアルタイム翻訳が追加され、音声認識に対する要件が高くなります。

以下の 3 種類の認識は、音声認識のカテゴリに分類することも、別のカテゴリとして列挙することもできますが、ここでは、音声認識の機能点として理解しやすいように、音声認識という大きなシステムに大きくまとめて説明します。音声認識。

  • 声紋認識、声紋認識の理論的基礎は、それぞれの声が独自の特徴を持ち、それによって異なる人々の声を効果的に区別できるというものです。声紋の特徴は主に 2 つの要素によって決まります 1 つは、喉、鼻腔、口腔などの声腔の大きさであり、これらの器官の形状、大きさ、位置によって声帯の張力が決まります。そして音の周波数の範囲。声紋の特徴を決定する 2 番目の要素は、唇、歯、舌、軟口蓋、口蓋筋などの発声器官の操作方法であり、これらの相互作用によって明瞭な音声が生成されます。彼らの間のコラボレーションの方法は、周囲の人々とのやり取りを通じてランダムに学習されます。声紋認識に一般的に使用される方法には、テンプレート マッチング法、最近傍法、ニューラル ネットワーク法、VQ クラスタリング法などが含まれます。

  • 感情認識では、主に収集された音声信号から感情を表す音響特徴を抽出し、この音響特徴と人間の感情とのマッピング関係を見つけます。現在、感情認識には主に深層学習手法が使用されており、これには感情空間の記述の確立と十分な感情コーパスの形成が必要です。感情認識は、人間とコンピューターのインタラクションにおけるインテリジェンスを具体化するアプリケーションですが、これまでのところ、技術レベルは製品アプリケーションのレベルに達していません。

  • ハミング認識では、主にユーザーが曲のメロディーを口ずさみ、そのメロディーと音楽ライブラリーのデータを詳細に分析・比較し、最終的にメロディーに合致した曲情報をユーザーに提供します。この技術は現在音楽検索に使用されており、認識率は約80%に達します。

                                                   语音识别现状和趋势
    

現時点では、音声認識の精度と速度は実際のアプリケーション環境に依存しますが、静かな環境、標準的なアクセント、一般的な語彙での音声認識率は95%を超え、十分に使用可能な状態に達しています。音声認識の理由。テクノロジーの発展により、アクセント、方言、騒音などのシナリオでの音声認識は使用できる状態になりましたが、強い騒音、超遠方界、強い干渉、多言語、大量の語彙などのシナリオでの音声認識は困難になってきました。まだ多くの作業が必要ですが、大幅な改善が見られます。もちろん、複数人による音声認識やオフライン音声認識も、現在解決すべき課題です。

学術コミュニティでは音声認識技術の動向について多くの議論が行われてきましたが、非常に注目に値するアイデアが 2 つあります。1 つはエンドツーエンドの音声認識システム、もう 1 つは最近 GE ヒントンによって提案されたカプセル理論です。はまだ学術的に議論の余地がありますが、比較的規模が大きいため、音声認識の分野で利点を発揮できるかどうかを検討する価値があります。

エンドツーエンドの音声認識システムには、現在大規模なアプリケーションはありません。理論的には、音声認識は本質的にシーケンス認識の問題であるため、音声認識のすべてのモデルを共同で最適化できれば、より優れた音声認識精度が達成されるはずです。これは、エンドツーエンドの音声認識システムの利点でもあります。しかし、音声収集、信号処理、特徴抽出、音響モデル、音声モデル、復号化、検索に至るチェーン全体のモデリング処理をエンドツーエンドで実現することは非常に困難であるため、一般的にエンドツーエンドモデルと呼ばれています。 CTC 基準やアテンションベースのモデルなどの DNN-HMM または CNN/RNN-HMM モデルのエンドツーエンド最適化などのカテゴリは、基本的に音響モデルに限定されています。実際、エンドツーエンドトレーニングでは、新機能として実シーンのノイズや残響などを学習できるため、信号処理への依存度を下げることができますが、この方法でもトレーニング性能、収束速度、ネットワーク帯域幅などは依然として課題となります。多くの問題があるため、主流の音声認識方法を上回る明白な利点はまだ達成されていません。

この記事は主にポピュラー サイエンスに関するものです。国内の音声認識分野のすべてのパートナーのサポートに非常に感謝しています。記事に不足がある場合は、修正をお待ちしています。

【参考文献】

1.Deep Learning:Methods andApplications,Li Deng and Dong Yu

2.Automaitic Speechand Speaker Recognition: Large Margin and Kernel Methods, Joseph Keshet andSamy Bengio

3.Xuedong Huang, Alex Acero, Hsiao-wuenHon, Spoken Language Processing

4.Lawrence Rabiner,Biing-Hwang Juang, Fundamentals of Speech Recognition

5.Dan jurafsky andJames H. Martin, Speech and Language Processing

6.Dynamic RoutingBetween Capsules,Sara Sabour,Nicholas Frosst,Geoffrey E. Hinton

7.https://en.wikipedia.org/wiki/Speech_perception

8.http://www.speech.cs.cmu.edu

9.http://htk.eng.cam.ac.uk/

10.http://kaldi-语音识别.org/

11.https://www.microsoft.com/en-us/cognitive-toolkit/

12.http://www.soundpi.org/

おすすめ

転載: blog.csdn.net/weixin_43153548/article/details/82840157