オープンソースの Python 中国語音声テキスト変換プロジェクトはありますか?

音声技術の継続的な発展に伴い、音声認識技術は徐々に成熟し、スマート ホーム、音声アシスタントなどの多くのスマート アプリケーションの重要な部分となっています。音声認識技術の中で、中国語の音声認識はより困難な分野です。プログラマが中国語の音声認識を容易にするために、ここでは、すべての人に役立つことを願って、推奨される Python オープンソースの中国語音声テキスト変換プロジェクト 10 個を紹介します。

ワックス

vosk は、中国語を含む複数の言語をサポートする軽量の音声認識ライブラリです。深層学習テクノロジーを使用して、音声をテキストに変換するタスクを比較的短時間で完了します。vosk の利点は、高速かつ正確で、オフラインで使用できることです。Github リンク: https://github.com/alphacep/vosk-api

カルディパイソン

Kaldi-python は、中国語を含む複数の言語をサポートする Kaldi ベースの Python 音声認識ツールキットです。カルディは非常に人気のある音声認識エンジンであり、その認識精度は非常に高いです。Kaldi-python を使用すると、Python でカルディの関数を簡単に使用できます。Github リンク: https://github.com/janchorowski/kaldi-python

ポケットスフィンクス

PocketSphinx は、CMU Sphinx によるオープンソースの音声認識ツールキットで、中国語を含む複数の言語をサポートしています。これは、モバイル デバイスなどのリソースに制約のある環境で使用できる軽量の音声認識エンジンです。Github リンク: https://github.com/cmusphinx/pocketsphinx

py-kaldi-asr

py-kaldi-asr は、中国語を含む複数の言語をサポートする Kaldi ベースの Python 音声認識ツールキットです。Kaldi-python とは異なり、py-kaldi-asr はより高度な API を提供し、マルチスレッド認識などの機能をサポートします。Github リンク: https://github.com/jpuigcerver/py-kaldi-asr

議会

Assemblyai は、ディープラーニング技術を使用し、中国語を含む複数の言語をサポートする音声認識 API です。「適応密度比較」と呼ばれるアルゴリズムを使用しており、音声からテキストへのタスクを比較的短時間で完了できます。Github リンク: https://github.com/assemblyai/python-sdk

Google Cloud Speech-to-Text

Google Cloud Speech-to-Text は、中国語を含む複数の言語をサポートする Google Cloud プラットフォーム上の音声認識 API です。Google 独自の音声認識エンジンを使用しており、高い精度を実現します。Github リンク: https://github.com/googleapis/python-sdk

百度AIオープンプラットフォーム

Baidu AI オープン プラットフォームは、中国語を含む複数の言語をサポートする音声認識 API を提供します。Baidu 独自の音声認識エンジンを使用しており、高い精度を実現します。オフライン音声認識とリアルタイム音声認識もサポートしています。Github リンク: https://github.com/Baidu-AIP/python-sdk

アイフライテック

iFLYTEK は、iFLYTEK によって開始された音声認識 API で、中国語を含む複数の言語をサポートしています。深層学習技術を使用しており、高い精度を実現できます。オフライン音声認識とリアルタイム音声認識もサポートしています。Github リンク: https://github.com/iFLYTEK-Speech/python_sdk

ディープスピーチ

DeepSpeech は Mozilla のオープンソース音声認識ツールキットであり、中国語を含む複数の言語をサポートしています。深層学習技術を使用しており、高い精度を実現できます。その利点はオフラインで使用できることと、事前トレーニングされた中国語音声認識モデルも提供することです。Github リンク: https://github.com/mozilla/DeepSpeech

vosk-api-python

vosk-api-python は vosk の Python 音声認識ツールキットであり、深層学習テクノロジを使用して音声をテキストに変換するタスクを比較的短時間で完了します。vosk とは異なり、より高度な API を提供し、マルチスレッド認識などの機能をサポートします。Github リンク: https://github.com/alphacep/vosk-api/tree/master/python

おすすめ

転載: blog.csdn.net/devid008/article/details/129656356