ささやき: ラージサクルの弱い監視によるロバストな音声認識

OpenAI Whisper Intensive Reading [Paper Intensive Reading 45]_哔哩哔哩_bilibiliその他の論文: https://github.com/mli/paper-reading, 68331 ビデオビュー, 327 バレットスクリーン, 2332 いいね, 投票 コインの数は1192件、お気に入り数は983件、再投稿数は394件です。動画の作者がLi MuからAIを学ぶ、作者紹介、関連動画:自動認識講座、インタビュー収録・Pythonオープンソースささやき音声認識、 ChatGPT の原理分析 Li Hongyi, (強く推奨) Li Hongyi 2021/2022 春の機械学習コース, Transformer の論文を段落ごとに集中的に読む [論文集中読解], Ph. ビデオをカットするための小さなツール [論文集中読解 44], aアルゴリズムの分野で「多大な努力を払った奇跡」:ChatGPT!Li Hongyi 教授が ChatGPT の根底にあるロジックを説明しました。興味のある学生はすぐにブックマークして勉強しましょう!、46 セマンティック セグメンテーションとデータセット [ハンズオン ディープ ラーニング v2] https://www.bilibili.com/video/BV1VG4y1t74x/?spm_id_from=333.999.0.0&vd_source=4aed82e35f26bb600bc5b46e65e25c22

音声モデルの事前トレーニング、自己監視の方法、この記事はまだ非常に興味深いものです。実際には、音声認識の分野で以前の nlp にバートを適用したものです。

        インターネット上の 70 ワットのラベル付き音声データをクロールし、変換モデルを直接トレーニングしました。For unlabeled speech data, use the pre-trained model of comparison learning. これらの事前トレーニング済み音声エンコーダーは、比較的高品質の特徴表現を学習できますが、適切なエンコーダーはありません. それを使用する場合は、A を見つける必要があります.ラベル データの微調整は、実際にはデコーダーのトレーニングですが、Wh​​isper は微調整はより複雑であると考えています。この考え方は前のbertと同じです. bertは双方向です. 使用される変換器のエンコーダーモジュールは本質的に事前訓練された大きな言語モデルです. 事前訓練された穴埋めまたは次の文の予測は訓練中に使用されます. タスク, これgpt は異なり、gpt はジェネレーティブであり、トランスフォーマー内の deocder モジュールが使用され、それ自体がデコーダーであり、bert のようにフォローアップでデコーダーを微調整する必要はありません。しかし、音声認識に gpt モードを使用しないのはなぜですか? 音声信号は音波であるため、gpt に載せてから次の 1 秒しか予測できませんが、音波自体を予測することは単語を予測することとは異なり、音声信号をテキスト信号に変換する必要があります。つまり、教師なしタスクであっても、フォローアップで微調整が必​​要です。しかしもちろん、それは 1 つのステップで実行できますが、特定のデータの微調整は常に十分に堅牢ではありません。ゼロ ショットを使用するのが最善です。

        著者は弱い教師ありデータセットを作成しました.教師ありですが、データ品質は比較的悪いです.68w 時間あり、大きな変換器が使用されています.モデルが十分に大きい場合、多言語およびマルチタスクに有利です. この方法は自己監視を必要としません. 過去には, 自己監視データは 100w 時間以上になることが多く, その後 4w 監視付き微調整が使用されました. 現在, ウィスパーは 4w ラベル付けされたデータを 68w 弱く監視されたデータに直接拡張します.効果はとても良いです。現在、これは sam に似ており、イメージ フィールドも同じことができます。

        Whisper は元のテキストを予測するために、sequence to sequence メソッドに完全に依存しています。ただし、インターネットからクロールされたデータにはまだいくつかの前処理が必要です. まず、クロールされたデータに asr マシンによって生成された音声とテキストのペアがある場合は、これを削除する必要があります。すべてのデータをトレーニング データとして 30 秒間隔にカットします。

        Whisper は、エンコーダーとデコーダーを備えたトランスフォーマーを使用します. データ入力は、オーディオを 16000Hz にサンプリングし、それを 80 チャネルの対数スケールのメル スペクトログラムに変換します. 16000Hz は各時間で 16000 ポイントであり、各時間ポイントは値があり、フーリエ変換を行い、時系列を周波数スペクトルに変更し、対数スケールで周波数スペクトルの次元を対数から db に変更します.メルは、誰もが異なる周波数に対して異なる反応を示し、一般的に低周波数に対してよく反応するためです. . 一点、高域へのレスポンスが少し悪く、メルはスペクトログラムですが、高域の解像度を下げ、低域の解像度を上げています。つまり、時系列信号が2D周波数マップになり、各時点で特徴が抽出され、80次元が各時点を表します.80次元の特徴が抽出され、10msずつ前方にスライドします. 、切り出すのに 30 秒かかります. 段落、30 秒の音声信号は、最終的に 3000 のデータ ポイントになり、各次元は 80 次元です。

ネットワーク モデルの構造:

モデル パラメータ:

 多言語の結果:

中国語の効果は平均です. 左の写真は単語のエラー率です, 横軸はトレーニングデータです. zh中国語のデータはたくさんありますが、エラー率はまだかなり高いです. 右の写真は翻訳です.翻訳はすべて英語です。

おすすめ

転載: blog.csdn.net/u012193416/article/details/130180826
おすすめ