字幕分割ビデオ

ささやき

ウェアハウスアドレス:
https://github.com/openai/whisper
利用可能なモデル情報:
ここに画像の説明を挿入します
テストビデオ: 18 セグメント、合計 447S ビデオ (11 セグメント以前: 冒頭に一時停止のあるビデオが 11 個あります)
Tiny: 終了: 142S、 11 セグメント 前、セグメント 0、セグメント 18、セグメント 10、5 セグメントの後、セグメント 5。
大:終了:941S、第11ステージ前、第0ステージ戦、第18ステージ中、第2ステージ戦、第5ステージ以降、第4ステージ戦。
WhisperX: 終了: 143S、11ステージ前、10ステージ戦、18ステージ中、17ステージ戦、5ステージ後、5ステージ戦。
話したり音を出したりする場合、13、14、12、20フレーム程度、つまり0.8S程度の誤差があるため、無音の音声を撮影する場合は端をずらして撮影することをお勧めします。 10フレーム送ります。
黙っていてもニヤニヤしてしまう人もいますが、
一言言った後、無音から口を完全に閉じるまで、5フレーム、8フレーム、10フレーム程度で、誤差は0.4S程度です。
WhisperX エラー統計 (単位: 秒):
ここに画像の説明を挿入します
概要: 1) WhisperX は、ビデオが空の音声で一時停止する前に、ラベルよりも早く一時停止します。短所: 文の後のいくつかの単語が切り取られる可能性があり、元のデータが 1 秒未満無駄になるという影響があります。利点: 音声がなく、口が閉じていない状況を解決できます。2
) WhisperX は、ビデオが一時停止し、音声がなくなった後、ラベルよりも遅れて一時停止します。短所: 文の最初の数単語が切り取られる可能性があり、元のデータの 1 秒未満が無駄になる可能性があります。利点: 話す前に、口は動くが音が出ないという状況が除去されます。

ささやきX

オックスフォード大学の博士課程の学生である Max Bain によるオープンソース モデル
https://github.com/m-bain/whisperXは
、上の表に示すように非常にうまく機能します。
WhisperXがINTERSPEECH 2023に採択されました

DAMOアカデミー音声チームパラフォーマー

https://github.com/alibaba-damo-academy/FunASR
効果:
ここに画像の説明を挿入します
つまり、各単語には開始と終了のタイムスタンプがあり、文の分割機能はありません。

フェイシュ・ミアオジ

https://www.feishu.cn/product/ minutes に
は字幕のみがあり、タイムスタンプはありません

FSMN 音声エンドポイント検出-中国語-ユニバーサル-16k

https://www.modelscope.cn/models/damo/speech_fsmn_vad_zh-cn-16k-common-pytorch/summary

おすすめ

転載: blog.csdn.net/jiafeier_555/article/details/131791265