最近、特別に師事したオープンソースプロジェクトは、データ入力を学習することは良いですが、プロジェクトがにアップロードされているように測定した後、音声認識システムの精度は、おそらく約75%であり、見てgithubの上ではなく、データセットやモデルが原因生成しますファイルは3日、またはGPU急いために実行している、本当に普通のコンピュータを傷つける、ハをダウンロードするには、その後、Baiduのネットワークディスクがあり、アップロードに失敗するには大きすぎます。
あなたがプログラムの動作や使用時のご質問がある場合は、タイムリーな問題に上昇させることができ、私はできるだけ早く対応させていただきます。交換QQグループのプロジェクト:867 888 133
あなたが最初にすることができます前に質問 よくある質問を表示 質問の回避の重複を
ASRTの原則は、こちらの記事を参照してください:
質問が頻繁に言語モデルの統計理論について尋ね、以下を参照してください。
はじめに
このプロジェクトはKeras、TensorFlowニューラルネットワークベースのコンボリューション深さとニューラルネットワークの記憶、注意して達成するためのCTC機構の長さを使用しています。
このプロジェクトは、実装するために、深い畳み込みニューラルネットワークおよびロング・ショートメモリニューラルネットワーク、注意メカニズムとCTCに基づいてKeras、TensorFlowを使用しています。
- ステップ
まず、Gitのでコンピュータにこの項目のクローンを作成し、データ収集のために必要なプロジェクトの訓練をダウンロードし、ダウンロードリンクを参照して、文書のセクションの終わりを。
$ gitのクローンhttps://github.com/nl8590687/ASRT_SpeechRecognition.git
それともすることもでき、その後地元のクローンに、独自のSSHキーによって「フォーク」ボタン、プロジェクトのコピーのコピー、。
プロジェクトのルートディレクトリへのクローニングによってはgitリポジトリの後、およびサブディレクトリの作成 dataset/
(代わりにソフトリンクを使用して)、その後に直接ダウンロードされたデータセットを抽出
現在のバージョンは、Thchs30とST-CMDS両方のデータセットを使用、不可欠にダウンロードする必要があることに注意し、他のデータセットは、コードを変更する必要があります。
$ CD ASRT_SpeechRecognition
$ます。mkdirたDataSet
$ zxfタール<アーカイブ・データ・セット名> -Cデータセット/
あなたは、すべてにコピーしたディレクトリのデータリスト内のファイルに必要 dataset/
なディレクトリ、データセットと一緒にそれを置きます。
$ cpは-rfデータリスト/ *データセット/
現在利用可能なモデルは24、25と251を持っています
プロジェクトを実行する前に、必要に応じてインストール依存ライブラリののpython3バージョンを
このプロジェクトは、訓練を行う始まりました。
$のpython3 train_mspeech.py
このプロジェクトは、テストを実行し始めました。
$のpython3 test_mspeech.py
テストする前に、必ずコードモデルファイルのパスに存在して記入します。
ASRT APIサーバーの起動時の問題:
$のpython3 asrserver.py
ノートは、オープンAPIサーバの後、あなたは音声認識のためのクライアント・ソフトウェアを、対応するASRTプロジェクトを使用する必要があること、Wikiのドキュメントを参照してくださいASRTクライアントのデモを。
あなたが訓練し、コード内で、モデル251を使用したい場合は import SpeechModel
、変更を行うための位置に対応します。
モデルモデル
スピーチモデル音声モデル
CNN + LSTM / GRU + CTC
前記オーディオ入力16秒の時間の最大長、ピンインの対応する配列の出力
- 問題をダウンロードしてモデルを訓練してきました
この倉庫でのGitHubできるリリースは、ソフトウェアの公開バージョンは、良いトレーニングモデルパラメータに完全なソースコードを入手するために含まれている各ビュー内袋を圧縮しました。
言語モデル言語モデル
隠れマルコフモデルの最大エントロピー確率マップに基づいて、
入力ピンインシーケンス、対応する中国語テキストの出力
精度の正確性について
現在、テストで最高のモデルが正しいピンインの80%を達成するために、実質的に設定しました
正答率はまだ改善する必要があるのでしかし、チームの現在の国際および国内の一部のためには、98%を行うことができます
Pythonのインポート
Pythonライブラリの依存関係
- python_speech_features
- TensorFlow
- ハード
- numpyの
- 波
- matplotlibの
- 数学
- scipyのダウンロード
- h5py
- HTTP
- urllibは
データは、データセットを設定します。
-
清華大学THCHS30中国の音声データセット
data_thchs30.tgz OpenSLR国内ミラーリング 外国ミラーOpenSLR
noise.tgzテスト OpenSLR国内ミラーリング 外国ミラーOpenSLR
resource.tgz OpenSLR国内のミラーリング OpenSLR外国ミラー
-
無料ST標準中国語コーパス
-CMDS-20170001_1-ST OS.tar.gz OpenSLR国内ミラーリング OpenSLR外国ミラー
-
データセットのAIShell-1オープンソースバージョン
data_aishell.tgz OpenSLR国内ミラーリング 外国ミラーOpenSLR
注:データ復元方法セット
$ tar xzf data_aishell.tgz $ cd data_aishell/wav $ for tar in *.tar.gz; do tar xvf $tar; done
-
Primewords中国のコーパスセット1
primewords_md_2018_set1.tar.gz OpenSLR国内のミラーリング OpenSLR外国ミラー
-
aidatatang_200zh
aidatatang_200zh.tgz OpenSLR国内のミラーリング OpenSLR外国ミラー
-
MagicData
train_set.tar.gz OpenSLR国内のミラーリング OpenSLR外国ミラー
dev_set.tar.gz OpenSLR国内のミラーリング OpenSLR外国ミラー
test_set.tar.gz OpenSLR国内のミラーリング OpenSLR外国ミラー
metadata.tar.gz OpenSLR国内のミラーリング OpenSLR外国ミラー
感謝!彼らの公共音声データセットに対する感謝の気持ちで
データセットは、ダウンロードに提供されたリンクを開くことができない、リンクをクリックしてください場合は OpenSLR
私たちは声をテストした:ギャップが存在する全体的に大丈夫、実用的なアプリケーション「我々は、グループ内のすべての兄弟姉妹が、言っています」!!!