AI > 音声認識オープンソース プロジェクト リスト

名前 提携開発会社 使用するシーン 長所と短所 技術的特徴 共有 説明
CMU スフィンクス カーネギーメロン大学 組み込みデバイス、サーバー アプリケーション 長所: 組み込みデバイスおよびサーバー アプリケーションで使用できます。短所: 精度が比較的低く、適用範囲が制限されます。 - 複数の言語モデルとツールのサポート。- 組み込み機器やサーバーアプリケーションに適しています。 中くらい CMU Sphinx は、組み込みデバイスおよびサーバー アプリケーション用のオープンソース音声認識システムです。さまざまな言語モデルやツールが提供されていますが、精度は比較的低く、適用範囲は限られています。
ディープスピーチ モジラ マルチプラットフォーム アプリケーション、音声からテキストへの変換、音声認識 長所: 複数のプラットフォームをサポートします。欠点: トレーニング プロセスは遅くなり、モデルは大きくなります。 - ディープラーニング技術に基づいています。- 複数のプラットフォームをサポートします。 低い DeepSpeech は、Mozilla によって開発されたディープラーニング技術に基づいたオープンソースの音声認識エンジンであり、マルチプラットフォーム アプリケーションをサポートしています。ただし、深層学習モデルのトレーニング プロセスは遅く、モデルが大きいため、多くのコンピューティング リソースと時間を必要とする可能性があります。
カルディチーム 学術界と産業界、大規模音声認識 長所: 強力な音声認識ツールキット。短所: 学習曲線が急になります。 - 強力な音声認識ツールキット。 中くらい Kaldi は、学術界や産業界で広く使用されている強力な音声認識ツールキットで、さまざまな最新の音声認識アルゴリズムを提供します。ただし、その複雑さのため、使用するにはある程度の学習曲線が必要になる場合があります。
オープンシーク2シーク エヌビディア エンドツーエンド音声認識、大規模音声認識 長所: エンドツーエンドの音声認識をサポートします。短所: 大量のコンピューティング リソースが必要です。 - Tensorflow に基づくエンドツーエンドの音声認識システム。- 大規模な音声認識をサポートします。 低い OpenSeq2Seq は、NVIDIA によって開発されたオープン ソース プロジェクトで、大規模な音声認識タスクのためのエンドツーエンドの音声認識をサポートします。ただし、エンドツーエンド システムは通常、大量の計算リソースを必要とするため、リソースに制約のあるデバイスには適さない場合があります。
ユリウス 未指定 高速リアルタイム大語彙連続音声認識 利点: 高速かつリアルタイムで、大量の語彙の認識に適しています。短所: 開発機関が指定されていない。 - 豊富な語彙を備えた高速リアルタイム連続音声認識。 低い Julius は、特にリアルタイムで大量の語彙の認識を必要とするシナリオ向けの、複数言語向けの高速リアルタイム大量語彙連続音声認識エンジンです。ただし、具体的な開発機関は明らかにされていない。
ポケットスフィンクス.js カーネギーメロン大学 ブラウザ上で動作する音声認識 長所: ブラウザで動作します。欠点: 精度が比較的低い。 - ブラウザ上で動作する音声認識。 低い Pocketsphinx.js は、ブラウザで音声認識を実行する CMU Sphinx の JavaScript ポートです。ブラウザに音声認識を実装する方法を提供しますが、精度は比較的低い可能性があります。
ワックス 未指定 オフライン音声認識 利点: オフライン音声認識をサポートします。短所: 開発機関が指定されていない。 - オフライン音声認識をサポートします。 知らない Vosk は、複数の言語とプラットフォームをサポートするオフライン音声認識用のオープンソース ツールキットです。ただし、具体的な開発機関は明らかにされていない。

この情報は時間の経過とともに変更される可能性があることに注意してください。これらのオープンソース プロジェクトを使用する場合は、公式 Web サイトまたは開発コミュニティで最新の情報を確認することをお勧めします。なお、ここでの「稼働率」は現時点で提供されている情報に基づいて推定したものであり、正確な市場シェアデータではありません。

振動する声: dilo_Abel

dilo_Abel の個人スペース-dilo_Abel 個人ホームページ-哔哩哔哩ビデオ

おすすめ

転載: blog.csdn.net/DL_62532/article/details/131892217