この記事では、Meta のオープンソース人工知能音楽モデル、MusicGen について包括的に理解できます。

この記事では、Meta Company が開発した新しいオープンソースの人工知能音楽モデル MusicGen について詳しく説明し、特にこのモデルの見逃されがちだが実際には大きな進歩を示すいくつかの側面を分析します。

音楽 AI 製品があらゆる人の音楽制作を向上させるイメージ (ChatGPT および DALL-E-3 との会話から生成されたイメージ)

AI 人工知能音楽モデルの歴史の簡単なレビュー

2023 年 2 月、Google は生成人工知能音楽モデル MusicLM で業界に騒動を巻き起こしました。この時点で、次の 2 つのことが明らかになります。

  1. 2023 年は AI ベースの音楽生成にとって画期的な年となるでしょう
  2. 新しいモデルがすぐに MusicLM を追い越す可能性がある

次の画期的なモデルは、モデル パラメーターとトレーニング データの点で MusicLM の 10 倍のサイズになると多くの人が予想しています。もちろん、ソースコードへのアクセスや著作権で保護されたトレーニング教材の使用を制限するなど、同様の倫理的問題も提起されるでしょう。

しかし、今日に至るまで、私たちはその一部だけが真実であることを知っています。

Meta の MusicGen モデルは 2023 年 6 月にリリースされました。このモデルは、次の点を含むいくつかの大幅な改善をもたらしました。

  1. より高音質な音楽出力(24kHz→32kHz)
  2. より自然なサウンドの楽器
  3. 任意のメロディーで条件付きで生成するオプション (これについてはブログ投稿を書きました: https://medium.com/towards-data-science/how-metas-ai-generates-music-based-on-a-reference-メロディ-de34acd783)

…使用するトレーニング データ、オープンソース コードとモデルの重みを減らし、商用ライセンスされたトレーニング資料のみを使用します。

6か月後、誇大宣伝は徐々に沈静化しました。ただし、Meta の研究チーム FAIR は、MusicGen モデルを徐々に改善するために、関連する論文の発表と対応するコードの更新を続けています。

モデル研究の進捗状況

MusicGen モデルのリリース以来、Meta は 2 つの主要な領域で MusicGen をアップグレードしてきました。

  1. マルチバンド拡散を使用して高品質の生成を実現
  2. より鮮明な出力のためのステレオ生成

これら 2 つの小さな改善のように聞こえるかもしれませんが、大きな違いをもたらします。自分で聞いてみてください!以下は、オリジナルの MusicGen モデル (3.3B パラメーター) を使用して生成された 10 秒の作品です。

MusicGen 公式デモページから生成されたトラック

使用されるプロンプトは次のとおりです。

「素朴な音色、環境に配慮した、ウクレレの香りが漂い、ハーモニーがあり、さわやかで、気楽で、オーガニックな楽器編成、穏やかなグルーヴ。」

対応する中国語の意味はおおよそ次のとおりです。「素朴な音色、アンビエントな雰囲気、ウクレレを取り入れた、調和のとれた、軽くて気楽な音色、有機的な楽器、柔らかいリズム」。

次に、上記と同じプロンプトに基づいて 6 か月後に MusicGen モデルによって生成された出力の例を以下に示します。

MusicGen モデルは、作者が MusicGen 3.3B Stereo で作成したトラックを生成しました。

MusicGen モデルは、作者が MusicGen 3.3B Stereo で作成したトラックを生成しました。

スマートフォンのスピーカーで聞いていると、違いが分からないかもしれません。他のデバイスでは、全体的なサウンドがよりクリアで自然に聞こえ、ステレオ サウンドにより作品がより鮮やかでエキサイティングになります。

このブログ投稿では、これらの領域における MusicGen モデルの改善点を示し、それらが重要な理由とその仕組みを説明し、音楽生成の例をいくつか示したいと思います。

マルチバンド分散 – これは何をするのでしょうか?

マルチバンド分散とは何か、そしてなぜそれが重要なのかを理解するために、まずオリジナルの MusicGen モデル ([参考資料 1]) がどのように出力を生成するかを見てみましょう。

ほぼ 100 万桁のコンピューター上で 34kHz サンプル レートで 30 秒間のオーディオを生成します。このような作品がサンプルごとに生成された場合、そのサイズは ChatGPT を使用して 10 冊の完全な小説を生成するのに相当します。

代わりに、Meta はニューラル オーディオ圧縮テクノロジーを使用します。彼らの圧縮モデル EnCodec ([参考文献 2]) は、関連情報を保持して元のサンプル レートに再構築しながら、音楽を 34kHz から約 0.05kHz まで圧縮できます。EnCodec は、音声を圧縮するエンコーダーと、元の音声を再生するデコーダーで構成されます (下の図を参照)。

エンコーデック: Meta Company が使用するニューラル オーディオ圧縮モデル (写真提供: 著者提供)

エンコーデック: Meta Company が使用するニューラル オーディオ圧縮モデル (写真提供: 著者提供)

さて、MusicGen モデルに戻りましょう。このモデルは、フル サンプリング レートで音楽を生成するのではなく、0.05kHz で音楽を生成し、EnCodec に音楽を「再構築」させ、最小限の計算時間とコストで高忠実度の出力を実現します (下の画像を参照)。

MusicGen: ユーザー プロンプト (テキスト) はエンコードされたオーディオ信号に変換され、その後デコードされて最終結果が生成されます (画像は著者提供)

EnCodec は優れたテクノロジですが、その圧縮はロスレスではありません。元のオーディオと比較して、再構成されたオーディオには顕著なアーティファクトがあります。聞いてみれば分かりますよ!

オリジナルのオーディオエフェクト

EnCodec エンコーディングによって生成された音楽の例 (EnCodec 公式デモ ページから引用)

EnCodec エンコーディングによって生成された音楽の例 (EnCodec 公式デモ ページから引用)

再構築されたオーディオエフェクト

MusicGen モデルは EnCodec エンコーディング テクノロジに完全に依存しているため、これが生成される音楽の品質における主なボトルネックになります。これが、Meta が EnCodec デコーダ部分を改善することに決めた理由です。2023 年 8 月に、マルチバンド分散を利用する EnCodec 用の更新されたデコーダを開発しました ([参考文献 3])。

Meta が EnCodec のオリジナル デコーダで発見した問題の 1 つは、最初に低周波数が生成され、次に高周波数が生成される傾向があるということでした。残念ながら、これは、低周波のエラー/アーティファクトが高周波にも歪みを与え、出力品質を大幅に低下させることを意味します。

マルチバンド分散は、スペクトルの異なる部分を結合する前に個別に生成することで、この問題を解決します。研究者らは、この手順により生成される出力が大幅に改善されることを発見しました。私の観点からすると、違いは明らかです。オリジナルの EnCodec デコーダとマルチバンド拡散デコーダを使用して同じトラックを聴く場合の比較は次のとおりです。

オリジナルデコーダーエフェクト

生成されたトラックは、マルチバンド拡散デモ Web ページ (https://ai.honu.io/papers/mbd/) から取得されます。

生成されたトラックは、マルチバンド拡散デモ Web ページ (https://ai.honu.io/papers/mbd/) から取得されます。

マルチバンド拡散デコーダ効果

生成されたトラックは、マルチバンド拡散デモ Web ページ (https://ai.honu.io/papers/mbd/) から取得されます。

生成されたトラックは、マルチバンド拡散デモ Web ページ (https://ai.honu.io/papers/mbd/) から取得されます。

現在のテキスト音楽変換システムの主要な問題の 1 つは、特にアコースティック楽器の場合、生成されるサウンドが常に不自然な品質になることです。マルチバンド拡散により、出力サウンドがよりクリアかつ自然になり、MusicGen モデルを次のレベルに引き上げます。

ステレオサウンドがそれほど重要なのはなぜですか?

これまでのところ、ほとんどの生成音楽モデルはモノラルでした。これは、MusicGen モデルが左側または右側にサウンドや楽器を配置しないことを意味し、その結果、ミックスの鮮やかさや刺激が少なくなります。ステレオを生成するのは簡単な作業ではないため、これまでステレオは無視されてきました。

ミュージシャンとして、ステレオ信号を生成すると、ミックス内の個々の楽器トラックにアクセスでき、それらを好きな場所に配置できます。MusicGen モデルは、すべての楽器を個別に生成するのではなく、結合されたオーディオ信号を生成します。これらの楽器ソースがなければ、ステレオサウンドを生成することは困難です。残念ながら、オーディオ信号を個々のソースに分解するのは難しい問題です (これについてはブログ投稿を公開しました: https://medium.com/towards-data-science/ai-music-source -separation-how-it -works-and-why-it-is-so-hard-187852e54752)、このテクノロジーはまだ 100% 完成していません。

したがって、Meta はステレオ生成を MusicGen モデルに直接組み込むことにしました。彼らは、ステレオ音楽で構成される新しいデータセットを使用して、ステレオ出力を生成するように MusicGen をトレーニングしました。研究者らは、モノラルと比較してステレオの生成には追加の計算コストがかからないと主張しています。

論文ではステレオ処理があまり明確に説明されていないように感じますが、私の理解は次のとおりです (下の図を参照): MusicGen は、単一チャネル信号の代わりに 2 つの圧縮オーディオ信号 (左チャネルと右チャネル) を生成することを学習しました。これらの圧縮信号は、結合して最終的なステレオ出力を構築する前に、個別にデコードする必要があります。MusicGen は以前とほぼ同じ時間で 2 つの圧縮オーディオ信号を生成できるため、このプロセスには 2 倍の時間がかかりません。

MusicGen ステレオ アップデートの概略図 (このプロセスは論文に完全に文書化されていないことに注意してください。100% 確実であるとは言えません。経験に基づいた推測として扱ってください。また、写真は著者自身が提供したものです)

説得力のあるステレオサウンドを生成できるという点で、MusicGen モデルは、MusicLM モデルや Stable Audio などの他の最先端のモデルとは大きく異なります。私の意見では、この「小さな」改善は、生成される音楽の鮮やかさに大きな影響を与えます。自分で聞いてください (スマートフォンのスピーカーでは聞き取りにくい場合があります)。

モノラルエフェクト

ステレオ効果

結論は

MusicGen モデルは、発売以来人々に感動を与えてきました。それ以来、Meta の FAIR チームは、より本物に聞こえる、より高い生産基準を達成するために製品を継続的に改善してきました。さらに、MusicGen モデルとそのすべての関連製品はオープンソースであるため、高品質の音楽作品を作成するためのインスピレーションの源となり、人工知能オーディオ エンジニアにとって好ましいフレームワークとなります。

おすすめ

転載: blog.csdn.net/java_cjkl/article/details/135193915