Python を使用して音声内の漢字を簡単に識別する
I.はじめに
会議や問題について話し合うとき、私たちは常に何かを記録します。しかし、さまざまな理由により、包括的かつ詳細な記録を達成することができません。これらの詳細を後で追加する必要がある場合があり、ビデオや録音の再生には時間と労力がかかりますが、現時点では、音声認識を使用すると、この問題点を簡単に解決できます。現在、一般的な音声認識サービスは有料のものがほとんどですが、無料でも認識効果の高いものもあります。たとえば、OpenAI によって開発されましたWhisper
。
2. ウィスパーの紹介
WhisperはPythonをベースにOpenAIが開発した音声認識モデルで、複数の言語を認識でき、認識結果を指定した言語に翻訳できます。
Open AI の公式紹介: Whisper は一般的な音声認識モデルです。これは、さまざまな音声の大規模なデータセットでトレーニングされており、多言語の音声認識、音声翻訳、言語認識を実行できるマルチタスク モデルでもあります。つまり、音声内の言語を自動的に認識し、音声認識し、認識結果を指定した言語に翻訳することができます。
3. Github プロジェクトのアドレス
プロジェクトアドレス:https://github.com/openai/whisper
対応用紙、インストール方法、使用方法など、プロジェクトの詳細を紹介します。
4. ウィスパーのインストール要件
- ピトーチ
- ffmpeg
- setuptools-Rust
5. 認識速度
ここからは実際に使ってみて得た効果についてお話します。
- GPU版で計算した場合、GeForce MX150グラフィックスカード(4Gビデオメモリ)モデルで約40分の動画を認識するの
Pytorch
に約30分かかります。small
- CPUバージョン
Pytorch
で計算した場合、Intel Core i7 8550Ularge
モデルで約40分の動画を認識するのに約12時間かかります。
6. 認識結果
- モデル認識を使用しているため
small
、場所によっては認識エラーが発生する場合があります。認識結果が繁体字で表示される場合もあります。 - モデル認識を使用する
large
と基本的にエラーは発生せず、認識結果が繁体字で表示されることもありません。
7. 提案
4G以上のメモリを搭載したNカードをお持ちの場合、または認識速度を考慮する必要がない場合は、認識作業に大きなモデルを使用してみてください。
8. ウィスパーのその他の使用法
whisper
動画編集の補助としても使えます。次のスニペットに示すように、認識されるすべての文には文の時間の始まりと終わりが伴うためです。詳しい説明は「OpenAI Whisperの話をする前に、ビデオカットツールを作ってみた【論文精読・44】」で検索して答えを見つけてください!
00:59.200 --> 01:02.560
我们的目标就是榨干真题的价值
01:03.840 --> 01:05.480
那么什么叫做榨干
01:06.920 --> 01:08.520
这个非常纯洁的来讲
01:09.320 --> 01:11.520
榨干就像榨油一样 对吧
01:12.240 --> 01:13.080
一滴都不剩