[Python] Whisper自動文字起こしのローカル版(ソースURL付き)

目次

  • 1. リアルタイム自動音声文字起こしの紹介             

  • 2. オープンソース Whisper リアルタイム トランスクライバー             

  • 3. pyinstaller は exe アプリケーションをパッケージ化してリリースします

  • 4. ソースコードの修正                             


1. リアルタイム自動音声文字起こしの概要

Live Auto Speech Transcriber は、音声信号を自動的にテキストに変換するアプリケーションです。通常、次の主な機能があります。 1. 音声の検出と取得 マイクまたはその他の入力信号のリアルタイム監視、ユーザーの音声入力の検出と記録。リアルタイム文字起こしには低遅延が必要です。2. 音声認識と文字起こし 音声認識技術を使用して、録音された音声信号を認識して文字起こしし、音声をテキストに変換します。ニューラル ネットワーク モデルなど、適切な音声認識モデルを選択する必要があります。3. 音声認識の結果を自動的に修正および分析し、数字の「13」を「30」として認識するなど、いくつかのよくある間違いを自動的に検出および修正します。これには、特定の修正ルールとアルゴリズムの開発が必要です。4. 書式設定と出力 転記結果に対して句読点や大文字の処理など必要な書式設定を行い、結果をリアルタイムでユーザーに表示したり、テキスト文書やその他の形式でエクスポートしたりできます。5. 操作上の対話 文字起こしの一時停止/継続、文字起こし結果の変更、音声認識モデルの選択など、特定の対話型操作を提供します。インタラクションは、グラフィカル インターフェイスやカスタム音声コマンドなどを通じて実現できます。6. 複数言語のサポート 理想的なリアルタイム自動音声転写装置は、さまざまなユーザーのニーズを満たすために、一般的に使用される複数の言語をサポートする必要があります。そのためには、さまざまな言語に対応した音声認識モデルと修正ルールを準備する必要があります。全体として、リアルタイム自動音声文字起こしはかなり複雑なアプリケーションです。実用的な自動文字起こしを開発するには、ある程度の音声認識と人工知能技術が必要であり、テスト、改訂、改善に多くの時間を投資する必要があります。しかし、音声認識技術の継続的な開発と多くのオープンソース ツールの登場により、基本的な自動音声文字起こしマシンの開発がより簡単かつ実現可能になってきました。一定の技術的基盤を持つ開発者は、スキルを向上させ、プロジェクトの経験を豊かにするために、このようなプロジェクトの完了を試みることができます。

2. オープンソース Whisper リアルタイム トランスクライバー

Fee61970916f1088ba53c34179bee0f5.png

メインインターフェース

ビデオデモ(YouTubeビデオの再生、リアルタイム音声文字起こし)

3. pyinstaller は exe アプリケーションをパッケージ化してリリースします

3e89a9b0c81b975fdbe28f2d913dd3a8.png

クロードガイド

pip install PyInstaller
pyinstaller WAT.py

パッケージ化が完了すると、dist フォルダーの下に WAT フォルダーが作成され、すべてのプログラムがここにあります。

1697e08617fe05a5c0f39f02971a4dc1.png

アイコン icon.ico を手動でコピーしてください。実行すると、ウィスパー フォルダーの内容が欠落していることを示すメッセージが表示されます (おそらく PYTHONPATH 環境変数を追加していないことが原因です)。WAT フォルダーの下にウィスパー フォルダーがないことが判明したため、次のパスを見つけます。

C:\Users\cxy\AppData\Local\Programs\Python\Python310\Lib\site-packages\whisper

e349db2bbe9e1070cba119661b73ce30.png

ウィスパーフォルダーを WAT ディレクトリにコピーします。WAT.exeを実行するだけです。

注: 音声認識モデル (medium.pt) をダウンロードして読み取るためのグローバル変数を設定します。

XDG_CACHE_HOME=V:\learn\AI\SpeechToText\WhisperAutoTranscriber-main\models

4. ソースコードの修正

おすすめ

転載: blog.csdn.net/cxyhjl/article/details/130592328