学習の深さに基づいて中国の音声認識システム

最近、特別に師事したオープンソースプロジェクトは、データ入力を学習することは良いですが、プロジェクトがにアップロードされているように測定した後、音声認識システムの精度は、おそらく約75%であり、見てgithubの上ではなく、データセットやモデルが原因生成しますファイルは3日、またはGPU急いために実行している、本当に普通のコンピュータを傷つける、ハをダウンロードするには、その後、Baiduのネットワークディスクがあり、アップロードに失敗するには大きすぎます。

プロジェクトのビューのWikiドキュメント

あなたがプログラムの動作や使用時のご質問がある場合は、タイムリーな問題に上昇させることができ、私はできるだけ早く対応させていただきます。交換QQグループのプロジェクト:867 888 133

あなたが最初にすることができます前に質問  よくある質問を表示  質問の回避の重複を

ASRTの原則は、こちらの記事を参照してください:

質問が頻繁に言語モデルの統計理論について尋ね、以下を参照してください。

はじめに

このプロジェクトはKeras、TensorFlowニューラルネットワークベースのコンボリューション深さとニューラルネットワークの記憶、注意して達成するためのCTC機構の長さを使用しています。

このプロジェクトは、実装するために、深い畳み込みニューラルネットワークおよびロング・ショートメモリニューラルネットワーク、注意メカニズムとCTCに基づいてKeras、TensorFlowを使用しています。

  • ステップ

まず、Gitのでコンピュータにこの項目のクローンを作成し、データ収集のために必要なプロジェクトの訓練をダウンロードし、ダウンロードリンクを参照して、文書のセクションの終わりを

$ gitのクローンhttps://github.com/nl8590687/ASRT_SpeechRecognition.git

それともすることもでき、その後地元のクローンに、独自のSSHキーによって「フォーク」ボタン、プロジェクトのコピーのコピー、。

プロジェクトのルートディレクトリへのクローニングによってはgitリポジトリの後、およびサブディレクトリの作成  dataset/ (代わりにソフトリンクを使用して)、その後に直接ダウンロードされたデータセットを抽出

現在のバージョンは、Thchs30とST-CMDS両方のデータセットを使用、不可欠にダウンロードする必要があることに注意し、他のデータセットは、コードを変更する必要があります。

$ CD ASRT_SpeechRecognition 

$ます。mkdirたDataSet 

$ zxfタール<アーカイブ・データ・セット名> -Cデータセット/

あなたは、すべてにコピーしたディレクトリのデータリスト内のファイルに必要  dataset/ なディレクトリ、データセットと一緒にそれを置きます。

$ cpは-rfデータリスト/ *データセット/

現在利用可能なモデルは24、25と251を持っています

プロジェクトを実行する前に、必要に応じてインストール依存ライブラリののpython3バージョンを

このプロジェクトは、訓練を行う始まりました。

$のpython3 train_mspeech.py

このプロジェクトは、テストを実行し始めました。

$のpython3 test_mspeech.py

テストする前に、必ずコードモデルファイルのパスに存在して記入します。

ASRT APIサーバーの起動時の問題:

$のpython3 asrserver.py

ノートは、オープンAPIサーバの後、あなたは音声認識のためのクライアント・ソフトウェアを、対応するASRTプロジェクトを使用する必要があること、Wikiのドキュメントを参照してくださいASRTクライアントのデモを

あなたが訓練し、コード内で、モデル251を使用したい場合は  import SpeechModel 、変更を行うための位置に対応します。

モデルモデル

スピーチモデル音声モデル

CNN + LSTM / GRU + CTC

前記オーディオ入力16秒の時間の最大長、ピンインの対応する配列の出力

  • 問題をダウンロードしてモデルを訓練してきました

この倉庫でのGitHubできるリリースは、ソフトウェアの公開バージョンは、良いトレーニングモデルパラメータに完全なソースコードを入手するために含まれている各ビュー内袋を圧縮しました。

言語モデル言語モデル

隠れマルコフモデルの最大エントロピー確率マップに基づいて、

入力ピンインシーケンス、対応する中国語テキストの出力

精度の正確性について

現在、テストで最高のモデルが正しいピンインの80%を達成するために、実質的に設定しました

正答率はまだ改善する必要があるのでしかし、チームの現在の国際および国内の一部のためには、98%を行うことができます

Pythonのインポート

Pythonライブラリの依存関係

  • python_speech_features
  • TensorFlow
  • ハード
  • numpyの
  • matplotlibの
  • 数学
  • scipyのダウンロード
  • h5py
  • HTTP
  • urllibは

データは、データセットを設定します。

感謝!彼らの公共音声データセットに対する感謝の気持ちで

データセットは、ダウンロードに提供されたリンクを開くことができない、リンクをクリックしてください場合は  OpenSLR

私たちは声をテストした:ギャップが存在する全体的に大丈夫、実用的なアプリケーション「我々は、グループ内のすべての兄弟姉妹が、言っています」!

おすすめ

転載: www.cnblogs.com/chen8023miss/p/12082284.html