3 つの素晴らしい AI プロジェクト、オープンソース!

公開アカウントは「GitHubDaily」をフォローしています

「スター」として設定すると、毎日 GitHub にアクセスできるようになります。

1789f4bcdc6052ccbeb37d5a8e94e4f4.jpeg

この 1 週間、外の世界から見ると AI の進歩のペースが鈍化しているように見えますが、AI の進化が止まらないことはその中にいる人にしかわかりません。

ここ 1 週間で GitHub 上に誕生した実用的な AI オープンソース プロジェクトの数々を今日は紹介します。

1.メタオープンソースAI生成音楽モデル

Meta は本日、AI で直接音楽を生成できる Python ライブラリである Audiocraft を GitHub 上でオープンソース化しました。

クリックして下のビデオを再生して、音楽生成の効果を確認してください。

GitHub:https://github.com/facebookresearch/audiocraft

ここでは主に MusicGen と呼ばれる音楽生成モデルが使用されており、50 Hz でサンプリングされた 4 つのコードブックを備えた 32 kHz EnCodec トークナイザーでトレーニングされた 1 段階の自己回帰 Transformer モデルです。

MusicLM などの既存の方法とは異なり、MusicGen は自己教師ありの意味表現を必要とせず、4 つのコードブックすべてを一度に生成します。

Wen Shengwen と Wen Shengtu のボリュームを読み終えたら、次のステップは、テキストがどのように音楽を生成するかを確認することです。

2.ディフューザーがメジャーアップデートをリリース

Diffusers v0.17.0 が正式にリリースされ、LoRA、Kandinsky 2.1、Torch コンパイルの高速化などの機能が改善されました。

Diffusers は、画像、音声、さらには分子の 3D 構造を生成するために使用できる、GitHub 上の事前トレーニング済み拡散モデルのよく知られた頼りになるライブラリです。

1a10a383212c9346ae04f538814948f1.jpeg

GitHub:https://github.com/huggingface/diffusers

シンプルな推論ソリューションを探している場合でも、独自の拡散モデルをトレーニングしている場合でも、Diffusers はモジュール式ツールボックスとしてサポートを提供します。

ライブラリの設計は使いやすさとカスタマイズ性に重点を置いており、主に次の 3 つのコア コンポーネントを提供します。

  • わずか数行のコードで推論を実行できる最先端の拡散パイプライン。

  • 異なる拡散速度と出力品質に対応する交換可能なノイズ スケジューラ。

  • 事前トレーニングされたモデルを構成要素として使用し、スケジューラーと組み合わせて独自のエンドツーエンドの拡散システムを作成できます。

このプロジェクトは、Hugging Face によって無料でオープンソース化されており、これを使用して ControlNet を迅速にトレーニングし、AI ペイントの効果と品質をさらに向上させることができます。

3. すべてが識別可能

Metaは以前、画像のセグメンテーションを自動的に実現できるSegment Anything ModelをGitHubでオープンソース化した。

ただし、このモデルは画像位置特定では良好なパフォーマンスを示しましたが、画像認識では応答が平凡でした。

この目的を達成するために、復旦大学は、OPPO 研究者およびインターナショナル スクール オブ デジタル エコノミーと協力して、強力な基本的な画像タグ付けモデルを GitHub でオープンソース化しました: Recognize Anything Model (RAM)

このモデルは、新しい画像ラベル付けパラダイムを採用して、共通のカテゴリを高精度で認識し、手動の注釈ではなく大規模な画像とテキストのペアを使用してトレーニングされます。

d086eabe5a39f592f25dcfb8016ee7e1.jpeg

GitHub:https://github.com/xinyu1205/Recognize_Anything-Tag2Text

RAM の開発は 4 つの主要なステップで構成されます。

  1. 自動テキスト意味解析を通じて、注釈のない画像ラベルを大規模に取得します。

  2. 統合されたキャプションとラベル付けのタスクを使用して、生のテキストと解析されたラベルによってそれぞれ監視され、予備モデルが自動注釈用にトレーニングされます。

  3. データ エンジンを使用して追加の注釈を生成し、間違った注釈をクリーンアップします。

  4. モデルは処理されたデータで再トレーニングされ、より小さいが高品質のデータセットを使用して微調整されます。

数多くのベンチマーク評価を行った結果、RAM のマーキング能力は非常に優れており、その効果は CLIP や BLIP よりも大幅に優れています。注目すべきことに、RAM は完全に監視されたアプローチよりも優れたパフォーマンスを発揮し、Google API にさえ匹敵します。

同時に、プロジェクトには、画像内の指定されたオブジェクトのタグをバッチで直接生成できる Tag2Text と呼ばれるツールも含まれています。

Meta のオープンソース SAM モデルと組み合わせると、画像内の指定されたオブジェクトをバッチで削除でき、画像処理効率がさらに向上します。

上記は、今回お勧めする AI オープンソース プロジェクトです。

AIGC についてさらに詳しく知りたい場合は、記事の下部にある QR コードをスキャンして、私たちの惑星に参加してさらなる議論やコミュニケーションを行ってください。

510531b3dea8970ed5786a0e2be1f5fb.png

adf1f456d8cdf0fd374b219d04d872ca.png

おすすめ

転載: blog.csdn.net/sinat_33224091/article/details/131148551