序文:
最近、ChatGPTの流行によりAIアプリケーションの分野が再び注目を集めていますが、今回は人間の音声をより正確にテキスト化できるAIアプリケーションWhisper(多言語対応)を紹介します。
1. インストール
pip をインストールするには、ソースコードのコンパイルとインストールの 2 つの方法があります。ここでは pip のインストール方法を説明します。
python 3.9.9 と pyTouch 1.10.1 をインストールします (インストール手順は省略し、公式 Web サイトからダウンロードしてインストールするだけです) pip バージョンは指定された pyTouch を使用するため、最新の Python バージョンをインストールするときに問題が発生します。
ffmpegをインストールします。各種OSのインストール方法は以下の通りです
# on Ubuntu or Debian
sudo apt update && sudo apt install ffmpeg
# on Arch Linux
sudo pacman -S ffmpeg
# on MacOS using Homebrew (https://brew.sh/)
brew install ffmpeg
# on Windows using Chocolatey (https://chocolatey.org/)
choco install ffmpeg
# on Windows using Scoop (https://scoop.sh/)
scoop install ffmpeg
ウィスパーと錆びを取り付けます
pip install -U openai-whisper
pip install setuptools-rust
2、使用する
Whisper は CPU と GPU の両方をサポートします。デフォルトが完了すると、CPU のみが高速化に使用されます。
whisper.exe 屋顶.mp3 --language zh --model small
効果はどうですか? もちろん試しにジェイの曲を使ってみました。結果が下の写真です。話速が遅い環境でも明らかに効果があります。ヌンチャクに変えると…見えないよ…
(写真:屋根を歌詞に変換)
--model は AI が使用するモデルを示します モデルは全部で 5 つあります モデルが大きいほど精度が高くなります (もちろんデバイスの性能要件も高くなります)
-- language は、ここでの音声の言語を示します zh=中国語
スクリーンショットから、翻訳されたテキストには簡体字と繁体字の両方が含まれていることがわかります。これは主に、AI サンプルに簡体字と繁体字の両方が含まれているためです。出力を簡略化したい場合は、--initial_prompt を追加します。以下は北京語での文です。」
whisper 屋顶.mp3 --language zh --model small --initial_prompt "以下是普通话的句子。"
再度実行すると、結果は図のようになります。
CUDAを使用する
次の手順を実行して、cuda で pytorch をインストールします。
pip uninstall torch
pip cache purge
pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu116
--device cuda device パラメータを使用して cuda を指定します
whisper 屋顶.mp3 --language zh --model small --device cuda --initial_prompt "以下是普通话的句子。"
その他の未完了事項は --help で確認できます
whisper --help
注:初めて電話をかけるときはモデルがダウンロードされるため、国内直接ダウンロードの速度は非常に遅くなります。