中国のマルチモーダル大規模モデル VisCPM: 対話、テキスト、画像の双方向生成をサポートし、詩を暗唱したり絵を描いたりする機能は素晴らしいです。清華省のインテリジェントなオープンソース...

この記事の編集者はマシンの心臓部です。組織: 壁に直面する知性

壁を打ち破る成果を再現する、VisCPM が登場します!

2020年12月にリリースされたCPM-1は中国初の大規模モデル、2022年9月にリリースされたCPM-Antはパラメータの0.06%の微調整だけで全パラメータの微調整効果を超えることができ、2023年5月にリリースされたWebCPMは中国語初の検索ベースのオープンソースモデルです。CPM-Bee 100億大型モデルはチームがリリースした最新の台座モデルで、権威あるリストZeroCLUEを上回る中国語能力、LLaMAに匹敵する英語力を誇ります。

CPMシリーズの大型モデルは壁を破る成果を繰り返し、国内の大型モデルをリードして頂点を目指してきましたが、最近リリースされたVisCPMもまたその証拠です。VisCPMは、Facewall Intelligence、清華大学NLP研究所、およびOpenBMBのZhihuが共同でオープンソース化した一連のマルチモーダル大規模モデルであり、その中で、VisCPM-Chatモデルは中国語と英語でのマルチモーダル対話機能をサポートし、VisCPM-Paintモデルはテキストから画像への生成機能をサポートしています。評価では、VisCPMが中国のマルチモーダルオープンソースモデルの中で最高のレベルに達していることが示されています。

VisCPM は、数百億のパラメータ ベース モデル CPM-Bee に基づいてトレーニングされており、ビジュアル エンコーダ (Q-Former) とビジュアル デコーダ (Diffusion-UNet) を統合して、ビジュアル信号の入出力をサポートします。CPM-Bee ベースの優れたバイリンガル機能のおかげで、VisCPM は英語のマルチモーダル データでのみ事前トレーニングでき、優れた中国語マルチモーダル機能を実現するために一般化できます。

0a7d4254cd406974008e01c28ee0c907.png

VisCPMの簡易構造図

VisCPM-Chat と VisCPM-Paint がどこにあるのかを詳しく見てみましょう。

9dc82f76502bdb2fc6e71b6cb8a4621d.png

VisCPM リンク: https://github.com/OpenBMB/VisCPM

VisCPM-Chat は、中国語と英語による画像指向のバイリンガル マルチモーダル対話をサポートします。このモデルは、視覚エンコーダーとして Q-Former、言語対話ベース モデルとして CPM-Bee (10B)、および視覚モデルと言語モデルを融合するための言語モデリング トレーニング目標を使用します。モデルのトレーニングには、事前トレーニングと指示の微調整の 2 段階が含まれます。

チームは、CC3M、CC12M、COCO、Visual Genome、Laion などを含む、約1 億の高品質英語グラフィック データを使用してVisCPM-Chat を事前トレーニングしました。事前トレーニング段階では、言語モデルのパラメーターは固定されたままで、大規模な視覚言語表現の効率的な調整をサポートするために、Q-Former の一部のパラメーターのみが更新されます。

その後、チームはデータを微調整するために LLaVA-150K 英語の指示を使用してVisCPM-Chat の指示を微調整し、対応する翻訳された中国語データを混合してモデルの指示を微調整し、モデルのマルチモーダルな基本機能とユーザーの意図を調整しました。命令微調整段階では、すべてのモデルパラメータを更新し、命令微調整データの利用効率を向上させました。

興味深いことに、チームは、英語の指示データのみを使用して指示を微調整した場合でも、モデルは中国語での質問を理解できても、英語でしか答えられないことを発見しました。これは、モデルの多言語およびマルチモーダル機能が十分に一般化されていることを示しています。指示の微調整段階で少量の中国語翻訳データを追加することで、モデルの応答言語をユーザーの質問言語に合わせることができます。

チームは、LLaVA 英語テスト セットと翻訳された中国語テスト セットでモデルを評価しました。評価ベンチマークでは、オープン ドメインの対話、画像の詳細説明、および複雑な推論におけるモデルのパフォーマンスが検査され、スコアリングには GPT-4 が使用されます。VisCPM-Chat は中国語のマルチモーダル能力で最高の平均パフォーマンスを達成し、一般的な領域の対話と複雑な推論に優れ、さらに優れた英語のマルチモーダル能力も示していることがわかります。

VisCPM-Chat には、VisCPM-Chat-balance と VisCPM-Chat-zhplus の 2 つのモデル バージョンがあり、前者は英語と中国語でよりバランスが取れており、後者は中国語でより顕著です2 つのモデルは命令の微調整段階で同じデータを使用し、VisCPM-Chat-zhplus では、事前トレーニング段階で 2,000 万のクリーン化されたネイティブ中国語の画像とテキストのペアと、中国語に翻訳された 1 億 2,000 万の画像とテキストのペアが追加されました。

4a7dd4826707b2e9035581d51801d97c.png

以下は、VisCPM-Chat のマルチモーダル対話機能のデモです。特定の地域の地図を認識できるだけでなく、落書きや映画のポスターを理解し、スターバックスのロゴさえも認識できます。しかも中国語と英語のバイリンガルでとても滑ります!

f9c0fa361a80325c4b19efdf880287f1.png

中国語と英語のバイリンガル テキストから画像への生成をサポートするVisCPM-Paint をもう一度見てみましょうこのモデルは、テキスト エンコーダとして CPM-Bee (10B)、画像デコーダとして UNet を使用し、拡散モデルを通じてターゲット融合言語とビジョン モデルをトレーニングします。

トレーニング プロセス中、言語モデルのパラメーターは常に固定されます。ビジョン デコーダは Stable Diffusion 2.1 の UNet パラメータで初期化され、主要なブリッジング パラメータを段階的にフリーズ解除することによって言語モデルと融合されます。最初にテキスト表現マッピングをビジョン モデルの線形層にトレーニングし、次に UNet のクロスアテンション層をさらにフリーズ解除します。モデルは、Laion 2B 英語テキスト間データセットでトレーニングされました。

VisCPM-Paint と同様に、ベース モデル CPM-Bee のバイリンガル機能のおかげで、VisCPM-Paint は英語の画像とテキストのペアを通じてのみトレーニングでき、良好な中国語のテキストから画像への生成機能を実現するように一般化され、中国語のオープン ソース モデルの最高の結果を達成しますさらに、2,000 万のクリーン化されたオリジナルの中国語画像テキスト データと、中国語に翻訳された 1 億 2,000 万の画像テキスト データを追加することにより、このモデルの中国語テキストから画像への生成機能がさらに向上しました。同様に、VisCPM-Paint には、balance と zhplus という 2 つの異なるバージョンがあります。標準画像生成テストセットMSCOCOで30,000枚の画像をサンプリングし、生成される画像の品質を評価するために一般的に使用される評価画像生成指標FID(Fréchet Inception Distance)を算出しました。

59ee6ce1984f4dea93cafe63148e9428.png

VisCPM-Paint モデルに、「明るい月が海に成長しています、空はこの瞬間です、美的スタイル、抽象的なスタイル」と「甘い香りのキンモクセイが降る、月は静かで山は空です」という 2 つのプロンプトを入力すると、次の 2 つの画像が生成されます。

6e1592e914adbf150d0746aa8f6989f7.jpeg

(発電効果の安定性にはまだ改善の余地あり)

非常に驚くべきことに、古代の詩の芸術的概念を正確に把握していると言えます。将来的には、詩が理解できなくても、理解できる画像を直接生成できるようになります。設計に適用すれば大幅な省力化が可能です。VisCPM-Chat を使用すると、「絵を描く」だけでなく「詩を朗読する」こともできます。写真を使用して詩を逆検索します。たとえば、李白の詩は黄河の情景を説明し解釈するのに使用でき、蘇軾の「水条歌頭」は中秋の月夜に直面したときの感情を表現するのにも使用できます。

a8b94e3bd85436cb18335db2395e2bca.jpeg078a9c58c9c68a1c773ebf404c3b5fe2.jpeg

VisCPM は適切に生成されるだけでなく、ダウンロード バージョンは適切に設計されており、インストールと使用が簡単です。 

df9b4cbafcea3e702683c1f24f7ba137.png

VisCPM は、さまざまな中国語と英語の機能を備えたバージョンを提供します

e1e37b68370d83f964e1075fc852d653.png

インストール手順

VisCPM は、ダウンロードして選択できる、さまざまな中国語と英語の機能を備えたモデル バージョンを提供します。インストール手順は簡単で、使用中に数行のコードでマルチモーダル ダイアログを実現できます。入力テキストと出力画像のセキュリティ チェックも、コード内でデフォルトで有効になっています。(特定のチュートリアルについては README を参照してください) 将来的には、チームは VisCPM を ハグフェイス コード フレームワークに統合し、セキュリティ モデルを段階的に改善し、Web ページの迅速な展開をサポートし、モデルの定量化をサポートし、モデルの微調整やその他の機能をサポートする予定です。アップデートをお待ちください

VisCPM シリーズのモデルは個人的な目的や研究目的で非常に歓迎されていることに言及する価値がありますモデルを商用目的で使用したい場合は、[email protected] に連絡して商用ライセンスの問題について話し合うこともできます。

従来のモデルは単一モーダル データの処理に重点を置いています。現実世界の情報は多くの場合マルチモーダルです。マルチモーダルな大規模モデルは、人工知能システムの認識および対話能力を向上させ、AI が現実世界の複雑な認識および理解タスクを解決する新たな機会をもたらします。清華大学の大規模モデル会社は壁面インテリジェンスの研究開発能力が高く、VisCPMが共同リリースしたマルチモーダル大規模モデルは強力で素晴らしいもので、今後の成果発表が楽しみです。

CVPR2023 の拡散ヴィンセント図の Imagic について学ぶための 1 分間のビデオです。

公式アカウント「機械学習とAI生成の創造」に注目してください。もっと面白いことがあなたを待っています

安定拡散の簡単解説:AI塗装技術の潜在的な拡散モデルの解釈

制御可能なAIGC絵画生成アルゴリズムControlNetを徹底解説! 

クラシック GAN は次のように読む必要があります: StyleGAN

bc9697c9244494575d13bfeb272c68ab.png GANのシリーズアルバムを見るには私をクリックしてください~!

一杯のミルクティーでAIGC+CVビジョンのフロンティアになろう!

最新かつ充実の100まとめ!拡散モデルの生成 拡散モデル

ECCV2022 | 対立ネットワーク GAN 生成に関する論文まとめ

CVPR 2022 | 25 以上の方向性、最新の 50 の GAN 論文

 ICCV 2021 | 35 のトピックに関する GAN 論文の概要

記事数は110以上!CVPR 2021 で最も完全な GAN ペーパーコーミング

記事数は100以上!CVPR 2020 で最も完全な GAN ペーパーコーミング

新しい GAN の解体: デカップリング表現 MixNMatch

StarGAN バージョン 2: マルチドメイン ダイバーシティ イメージの生成

添付のダウンロード | 「Explainable Machine Learning」の中国語版

添付のダウンロード | 「TensorFlow 2.0 ディープ ラーニング アルゴリズムの実践」

添付のダウンロード | 「コンピューター ビジョンにおける数学的手法」シェア

「深層学習に基づく表面欠陥検出手法の検討」

ゼロショット画像分類の調査: 10 年間の進歩

「ディープニューラルネットワークに基づく少数ショット学習の調査」

『礼書・薛記』には、「友なしで一人で学ぶのは孤独で無知だ」という言葉がある。

ミルク ティー カップをクリックして、AIGC+CV ビジョンのフロンティア ウェイバーになりましょう! 、  AI によって生成された創造物とコンピューター ビジョンの 知識の惑星に参加してください。

おすすめ

転載: blog.csdn.net/lgzlgz3102/article/details/131693186