話し言葉としてその名の暗黙の意味として、テキストを音声に変換する音声テキスト(STT)システムは、道のその後の使用のためのテキストファイルに変換されます。
テキストを音声に変換する技術は非常に便利です。これは、自動転写などの多くの用途に使用することができますので、上の他のツールとによって生成された複雑な分析とテキストファイルを、本を書くために自分の声やテキストを使用して行います。
過去には、テキストを音声に変換する技術を独自のソフトウェアやデータベース駆動型にない、またはオープンソースの代替、または厳格な制限があり、何のコミュニティがありません。これは変更されて、今日の多くのオープンソースのテキストを音声に変換するツールと、いつでも使用できるようにするライブラリがあります。
ここで私は5を一覧表示します。
オープンソースの音声認識ライブラリ
DeepSpeechプロジェクト
プロジェクトは、開発組織のMozilla Firefoxブラウザのチームによって開発されました。これは、関数を実装するためにTensorFlow機械学習フレームワークを意味の名前を使用して、100%フリーでオープンソースソフトウェアです。
言い換えれば、あなたも他の言語に変換するために使用することができ、より良い結果を得るために彼らのモデルを訓練するためにそれを使用することができます。また、簡単に自分のTensorflow機械学習プロジェクトに統合することができます。残念ながら、現在のデフォルトのプログラムは英語でのみ使用可能です。
それはまた、Pythonの(3.6)など、多くのプログラミング言語をサポートしています。それはあなたがほんの数秒で作業を完了することができます:
pip3 install deepspeech
deepspeech --model models/output_graph.pbmm --alphabet models/alphabet.txt --lm models/lm.binary --trie models/trie --audio my_audio_file.wav--model models/output_graph.pbmm --alphabet models/alphabet.txt --lm models/lm.binary --trie models/trie --audio my_audio_file.wav
あなたもすることができ npm
、それをインストールします。
npm install deepspeech
◈
プロジェクトホーム
カルディ
C ++で書かれたカルディは、オープンソースの音声認識ソフトウェアであり、およびApache Public Licenseの下でリリース。これは、Windows、MacOSの、およびLinux上で実行することができます。その開発は2009年に始まりました。
カルディは、より多くの他の音声認識ソフトウェアの主な特徴よりも拡張性とモジュール化されています。コミュニティは、サードパーティの多数のモジュールがあなたのミッションを完了するために使用することができます提供しています。カルディは深くニューラルネットワークをサポートし、そのウェブサイト上で提供し、優れた文書。
コードはC ++で主に完成されますが、バッシュとPythonスクリプトによってカプセル化されているが。テキストへの変換のみ基本的な音声を使用したいのであれば、あなたはそれが簡単にPythonやバッシュによって達成することができるでしょう。
◈ プロジェクトホームジュリアス
それは最古史上音声認識ソフトウェアの一つであってもよいです。その開発は、独立したチームに所有権を移転、2005年の後半に、1991年に京都大学で始まりました。
ジュリアスの主な機能は、出力最高の単語N-最高の単語と単語グラフワードグラフは、サーバ装置などとして実行することができ、リアルタイムSTT、低メモリフットプリント(64メガバイト20,000の単語以下)、実行する機能が含まれます。このソフトウェアは、主に大学や研究機関のために設計されています。C言語で書かれたとLinux、Windowsの、MacOSの(スマートフォン)でさえもAndroid上で実行することができます。
これは現在、英語と日本語をサポートしています。あなたは簡単にLinuxディストリビューションの倉庫からソフトウェアをインストールすることができるはずです。あなたが検索ジュリアスパッケージマネージャでできる限り。最新バージョンはリリース発表前の記事前の約ヶ月半で。
◈ プロジェクトホームWav2Letter ++
あなたが探している場合は、よりスタイリッシュに、そして、これは確かにフィット。Wav2Letter ++は、Facebookのオープンソース音声認識ソフトウェアからAIの研究チームの2ヶ月前にリリースされます。コードはBSDライセンスの下でリリース。
Facebookはそのライブラリがあるについて説明し、「最速、最も先進的な最先端の音声認識システム。」ときにそれを構築するという考えは、パフォーマンスのために最適化されたデフォルトにします。ライブラリ学習Facebookの最新マシン 懐中電灯 も、基礎となるコアWav2Letter ++として使用します。
Wav2Letter ++は、最初の学習アルゴリズムを記述するための言語のためのモデルを確立する必要があります。(英語を含む)事前研修モデルを任意の言語を持っていない、それはC ++、その名のWav2Letter ++で書かれただけで機械学習駆動のテキストを音声に変換するツールです。
◈ プロジェクトホームDeepSpeech2
中国のソフトウェアの巨人Baiduの研究者はまた、「DeepSpeech2」と呼ばれる、独自のテキストを音声に変換するエンジンを、開発しています。それは「PaddlePaddle」深い学習の枠組み英語や中国語のテキスト変換を使用して、エンドツーオープンソースのエンジンです。コードはBSDライセンスの下でリリース。
エンジンは、あなたが好きなモデルにし、任意の言語で訓練することができます。モデルのコードでリリースされていません。あなたは、他のソフトウェアのようなモデルとして自分自身を確立する必要があります。あなたが使用している場合DeepSpeech2のソースコードは、Pythonで書かれて使用することは非常に簡単になります。
◈ プロジェクトホーム概要
音声認識は、まだ大部分は、このような(クローズドソースの商用サービスを提供することを目的)GoogleやIBMなどのプロプライエタリなソフトウェアの巨人、しかし、有望なオープンソースソフトウェアの同じ種類によって支配されています。この5オープンソースの音声認識エンジンを使用すると、時間をかけて、彼らが開発していきます、アプリケーションの構築を支援することができるはずです。数年間で、我々は、収益だけで、他の産業と同様、これらの技術は、その規範であることを期待しています。
あなたは、リスト上の他の提案やコメントがあれば、我々は以下聞いてみたいです。
経由: https://fosspost.org/lists/open-source-speech-recognition-speech-to-text
著者:サイモン・ジェームズの トピック:lujun9972 翻訳:LuuMing 校正:WXY
この記事 LCTT オリジナルのコンパイラは、Linuxの中国は 誇りに思っています