無料で使えるオープンソース音声認識プロジェクト Whisper を構築する詳細なプロセス | Linux で OpenAI オープンソース音声認識プロジェクト Whisper を構築する方法

原文は私の個人ブログからのものです。

1. 前提条件

サーバーはGPUサーバーです。ここをクリックすると、私が使用している GPU サーバーにジャンプします。NVIDIA A 100 グラフィックス カードと 4GB ビデオ メモリを使用して Whisper を構築しました。

Python のバージョンは 3.8 ~ 3.11 である必要があります。

次のコマンドを入力して、使用されている Python のバージョンを確認します。

python3 -V

2.アナコンダをインストールする

Anaconda をインストールする理由

さまざまなプロジェクトで使用されるライブラリのバージョンの競合を減らすために、Anaconda を使用して仮想 Python 環境を作成できます。

Anaconda インストール スクリプトをダウンロードする

ご使用のシステムに対応するインストーラーを見つけてください。

画像-20230512160616642

ダウンロードが完了したら、スクリプトを直接実行できます。

bash 脚本.sh

次の方法でスクリプトを実行することもできます。

chmod +x 脚本.sh
./脚本.sh

インストールが完了したら、SSH に再接続する必要があります。

インストールが成功したかどうかを確認するには、次のコマンドを使用できます。

conda -V

3.FFmpegをインストールする

apt install ffmpeg

Enterを入力するとffmpeg、インストールが成功したことを示すプロンプト メッセージが表示されます。

4.グラフィックスカードドライバーをインストールする

最初に入力してnvidia-smiグラフィックス カードの情報を表示し、プロンプト メッセージが表示されたら、グラフィックス カード ドライバーがインストールされていることを意味します。

グラフィックス カード ドライバーがインストールされていない場合は、次の 2 つのインストール方法があります。

4.1. 方法 1

ubuntu-drivers デバイス インストールできるグラフィックス ドライバーを表示する

apt install nvidia-driver-530 推奨グラフィックスドライバーをインストールします

nvidia-smi グラフィックス カード情報の表示

画像-20230511174509407

4.2. 方法 2

NVIDIA公式ドライバー ダウンロード Web サイトにアクセスして、対応するグラフィック カード ドライバーをダウンロードします。

ここをクリックしてダウンロードしてください

詳細については、こちらの記事を参照してください

5.CUDAのインストール

CUDA をダウンロード

ダウンロードされる CUDA バージョンは、nvidia-smi で確認される CUDA バージョン以下である必要があり、任意にダウンロードすることはできません。

正式な手順に従ってインストールしてください。

を編集し~/.bashrc、最後に次のコマンドを追加します。

export PATH=/usr/local/cuda-12.1/bin${
    
    PATH:+:${
    
    PATH}}
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-12.1/lib64

cuda-12.1注:上記を自分でインストールした CUDA のバージョンに変更する必要があります。

リロード

source ~/.bashrc
sudo ldconfig

CUDAがインストールされているかどうかを確認してください。

nvcc -V

インストール プロセス中にエラーが報告されないにもかかわらず、このコマンドを入力した後にバージョン情報が出力されない場合は、環境変数が設定されていないか、正しく設定されていません。

6. cuDNN のインストール (オプション)

cuDNN をダウンロードするには、NVIDIA アカウントを登録する必要があり、コミュニティへの参加に同意するかどうかを確認する必要があります。そうしないとダウンロードできません。そして、このダウンロードには事前に認証が必要なので、サービスに直接ダウンロードすることはできません。そうしないと、ダウンロードするものは単なる Web ページになります。まずローカル コンピューターにダウンロードしてから、サーバーにアップロードする必要があります。 rzまたはscpコマンド。

cuDNNのダウンロード

画像-20230511181842121

画像-20230511182057161

ダウンロードが完了したら、CUDA ディレクトリに解凍します。

tar -xvf 文件名
cd 文件夾
sudo cp include/* /usr/local/cuda-12.1/include
sudo cp lib/libcudnn* /usr/local/cuda-12.1/lib64
sudo chmod a+r /usr/local/cuda-12.1/include/cudnn*
sudo chmod a+r /usr/local/cuda-12.1/lib64/libcudnn*
cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2

7.PyTorchをインストールする

PyTorchをダウンロードするにはここをクリックしてください

画像-20230512162536942

注: インストールされているバージョンは、CUDA のバージョンと一致している必要があります。

インストールするときは、公式コマンドを直接コピーするだけです。

次に、次のコマンドを使用して、インストールが成功したかどうかを確認できます。

python
import torch
torch.__version__
torch.cuda.is_available()

最後の文が重要で、True を返す場合のみ Whisper はグラフィック カードを使用して転写できます。それ以外の場合は、CPU を使用して転写します。最後の文が False を返した場合は、インストールした PyTorch バージョンで使用されている CUDA バージョンが、サーバーに既にインストールされている CUDA バージョンと一致していない可能性があります。

8. ウィスパーをインストールする

インストールする前に、conda を使用して仮想環境を作成する必要があります。

conda create -n whisper python=3.10

仮想環境をアクティブ化します。

conda activate whisper

仮想環境を終了します。

conda deactivate

仮想環境を確認してください。

conda env list

仮想環境を削除します。

conda remove -n whisper --all

まず仮想環境を有効にしてから、次のコマンドを入力してインストールします。

pip install -U openai-whisper

エラーがない場合は、次のコマンドを入力し、情報出力が表示されたら、インストールが成功したことを意味します。

whisper -h

9. ささやきの使用

初めて使用するときは比較的時間がかかり、モデルをダウンロードする必要があります。使用するモデルが大きいほど、転写速度は遅くなりますが、転写の精度は高くなります。Whisper はスペイン語の認識精度が最も高く、イタリア語がそれに続きます、次に英語のみで、中国語の認知度は中間に位置します。

Whisperの使い方を簡単に説明します。

whisper 你要转录的音视频文件 --model large --language Chinese

whisper -hより多くの使用法を使用して表示できます。

おすすめ

転載: blog.csdn.net/qq_43907505/article/details/130667674