文生図の大規模実践: 百度による AIGC ペイント ツール探索の裏話が明らかに!

著者 | 天宝

導入 

2023 年以降、AIGC テクノロジーは人工知能の新たな波を生み出しました。AI ペイントは、大型モデルの最も注目を集める応用分野の 1 つとして、近年大きな進歩を遂げています。AI ペイント システムは、ユーザーの入力やプロンプトに基づいてさまざまなスタイルの画像を生成でき、アーティスト、デザイナー、クリエイターに強力なツールを提供するだけでなく、デジタル クリエイティビティの分野に新たな可能性をもたらします。

最近、Baidu Search のチーフアーキテクトである Tianbao 氏は、有名なテクノロジーメディア InfoQ の対話プログラム「Geeks Meet」に招待され、主催者および聴衆と画像生成テクノロジーについて徹底的に議論しました。 Baidu 検索および関連テクノロジーのアプリケーション シナリオ、検索ビジネス シナリオにおける思考とアプリケーションの経験。

この記事ではそのインタビューを詳しく記録します。

全文は 10,034 ワードで、推定読了時間は 26 分です。

ハイライト:

1. これは大きな変化です。以前は、ユーザーはインターネット全体で画像を検索していましたが、ユーザーのより具体的なニーズを満たすために、画像の検索と画像の生成を組み合わせて行うようになりました。これにより、ユーザーは特定のことに対してより積極的に取り組むようになりました。本当のニーズを表現します。

2. モデルが中国語をよりよく理解できるようにするには、中国語の意味論に関連するコーパスを準備してクリーンアップすることが非常に重要です。

3. 画像とテキストの配置には、低品質のサンプルを削除して高価値のサンプルを構築する機能が必要です。

4. Baidu 検索はコンテンツとスタイルの面でユーザーの多様なニーズを満たす必要があり、Baidu 検索は現在、数千の異なる画像スタイル定義をサポートしています。

5. 美的基準に従い、独自の美的認識を構築する 全体的なモデルの構築またはアルゴリズムの最適化のいずれの観点においても、関連するガイダンスと評価はこれらの高度な基準に従って実行する必要があります。

01 ヴィンセント図の技術開発プロセス

司会者:昨年9月のAIGCから現在まで、さまざまなモデルや企業が登場しています。当初から、誰もが安定した拡散を使用して単純な画像を生成し、その後、生成的な画像編集に他の方法を使用しました。その後、Adobe Photoshop では、画像を変更するための自然言語の使用もサポートされました。これまで見てきたテキスト生成における AIGC の成果以外にも、さらに興味深い応用分野があると思います。画像の生成に加えて、ビデオやオーディオも生成できます。最近、素晴らしいジェネレーティブビデオ製品もいくつか目にしました。今日は、TianBao 先生に、ビンセント グラフ テクノロジーの現在の全体的な開発傾向を紹介していただきたいと思います。

天宝:2022年は文勝図元年とも言えますが、大きく分けてStable Diffusionに代表されるオープンソースのジャンルと、Midjourney、AdobeのFirefly、Dall-E 3に代表されるクローズドソースのモデルに分かれます。なぜ今年が初年度なのかというと、ディスコディフュージョンだからです。Disco Diffusion の主な目標は、風景などのランドスケープ作成です。ランドスケープ シーンとは、フォールト トレランス率が比較的高いシーンであり、視覚的にインパクトのある色と芸術的な質感を組み合わせたものです。これは、2021 年末から始まりにかけての非常に大胆な動きです。 2022年。とても素晴らしい試みです。

2022 年 2 月まで、Midjourney は v1 バージョンをリリースしました。v1 の全体的な効果は非常に素晴らしいですが、ポートレートの生成におけるパフォーマンスは満足のいくものとは程遠いです。Midjourney v3 がいくつかの通常のポートレートを正常に生成できるようになったのは、同年の 7 月中旬になってからでした。8 月には、Midjourney v3 と Photoshop での後処理を組み合わせて作品「Space Opera」が生成され、Midjourney はセンセーションを巻き起こすことに成功しました。

安定拡散バージョン 1.5 も同時期にオープンソース化され、それ以来、Station C のようなより多くのユーザーが分散モデルと最適化の分野に集まり始めたため、このオープンソース イベントはマイルストーンとなりました。オープンソース テクノロジーの発展に伴い、ダウンストリーム アプリケーションを含むエコシステム全体が爆発的な成長と出現を経験しました。それ以来、技術の進歩と下流アプリケーションの開発が相互に強化し続けています。

02 百度文勝図の探索と結果

司会者:昨年9月のAIGCから現在まで、さまざまなモデルや企業が登場しています。当初から、誰もが安定した拡散を使用して単純な画像を生成し、その後、生成的な画像編集に他の方法を使用しました。その後、Adobe Photoshop では、画像を変更するための自然言語の使用もサポートされました。これまで見てきたテキスト生成における AIGC の成果以外にも、さらに興味深い応用分野があると思います。画像の生成に加えて、ビデオやオーディオも生成できます。最近、素晴らしいジェネレーティブビデオ製品もいくつか目にしました。今日は、TianBao 先生に、ビンセント グラフ テクノロジーの現在の全体的な開発傾向を紹介していただきたいと思います。

今でもざっくり覚えているのですが、安定拡散の初期の効果はあまり良くなく、例えばポートレートを生成しようとすると、3本足の人や複数の目を持つ人など、歪んだ結果が多かったです。時間が経つにつれて、このテクノロジーは徐々に現実的になってきました。同時に、Civitai のような AI テクノロジーも登場し、人気の原神シリーズのように、人々が自分のイメージに基づいてさまざまなシーンを作成できるようになりました。この画像生成技術の発展により、さまざまな応用が可能になりました。たとえば、カードを描くゲームでは、オリジナルのアーティストがこのテクノロジーを使用してゲーム コンポーネントを作成できます。Baidu 検索などの国家レベルのアプリケーションでは、Vincentian の写真はシーンとどのように統合されますか? 最初は検索ボックスにキーワードを入力して関連画像を見つけることができると思いますが、さらにさまざまな工夫ができると思います。

**TianBao **: 初期の頃、Baidu は AIGC 画像生成にもいくつかの試みをしました。今お話がありましたように、ヴィンセント図技術は当初は使えなかった結果から徐々に使えるようになり、想像力を解放し、目を引く視覚的なインパクトをもたらすことができます。

検索の場合、これまで画像を見つけようとしたユーザーは通常、テキスト検索を実行していました。たとえば、サングラスと帽子をかぶった猫が怒ったようなジェスチャーをしているなど、ユーザーは頭の中で思い浮かべる絵ですが、通常、作成され認識されたコンテンツを見つけるにはネットワーク全体を検索することしかできません。しかし、猫が怒っているしぐさをしたり、特別な服を着たりするなど、より特殊なシーンでは、ネットワーク全体で誰もそのような写真を作成しなければ、ユーザーのニーズを満たすことが制限され、怒っている猫を探すというニーズに堕落してしまいます。その後、閲覧ニーズに目を向け、ウェブ上に自分のニーズを満たしてくれる同様の怒っている猫がいるかどうかを確認します。

しかし、生成技術の急速な発展により、ユーザーの頭の中にあるイメージを具体的に表現してユーザーのニーズを満たすことができるようになりました。ユーザーの検索ニーズを画像検索と画像生成の組み合わせに変換することで、ユーザーのより具体的なニーズに応えることができ、ユーザーが実際のニーズをより積極的に表現することもある程度促進されます。製品に関しては、ユーザーは百度のアプリで「怒っている猫を描く」または「絵を描く」を検索し、文生図の関連機能ページにアクセスし、誰もが実際に体験することができます。

画像を見つけることが検索の最初のステップです。画像の分野では、多くのクリエイターはまず自分のニーズに合った画像を見つけ、その画像をアバターとして使用したり、クリエイティブ素材として使用したり、作品に使用したりする必要があります。そのため、生成の過程でインペイントやアウトペイントなどの編集作業を加えています。たとえば、写真の中に帽子をかぶった猫がいる場合、自然言語対話を通じて猫を犬に置き換えることができ、それによって画像の再利用性が高まります。これには通常、画像編集用のヴィンセント グラフに基づく大規模な事前トレーニングされたモデルが必要です。

全体として、最初の画像検索は、「画像の検索」と「画像の生成」のプロセスになり、その後、画像分野でのユーザーのニーズに合わせて画像を使用する第 2 段階に入ります。

03 ヴィンセント図の実践と課題

司会者:これは非常に興味深い応用シナリオだと思います。なぜなら、私がかつてPPTを作成していたとき、顧客が製品を使用しているシーンや、製品の写真など、自分の想像上のシーンを満たす画像を見つける必要が何度もあったからです。とある業界。ただし、著作権を侵害したり、さまざまな画像ソースに関する紛争を避けたりすることは望んでいません。この場合、画像を見つけて、これに基づいて修復修正、境界線の補完、さらには画像の超解像度処理を実行できることは、実際には非常に実用的なアプリケーション シナリオです。

部外者は、当社が画像の生成、簡易編集、枠拡張、高解像度画像の完成など、一部の基本的な画像生成・編集機能のみをサポートしていると考えるかもしれません。しかし実際のところ、私の理解によれば、このテクノロジーは中国の文脈では非常に困難です。特に中国の文化と意味論的なシナリオの場合、ほとんどのモデルは通常英語ベースのコンテキストでトレーニングされ、元のコーパスは主に英語です。しかし、中国語検索エンジン分野の巨人である百度は、中国語、英語、さらには一部の方言にも対応する必要があります。

TianBao :中国最大の検索エンジンである百度は、中国語の独特な要素、中国の習慣的な表現、方言の理解など、中国語の理解において大きな利点を持っています。モデルが中国語をよりよく理解できるようにするには、中国語の意味論に関連するコーパスの準備とクリーニングが不可欠なステップであることは明らかです。

検索の分野では、インターネット全体で最も包括的な中国語コーパスを認識する能力があり、これは当然の利点です。しかしさらに、モデル全体のセマンティクスをより深く理解するには、サンプルのクリーニング、より包括的な知識の網羅、より多様で高品質なサンプルの取得も必要です。同時に、モデルによって生成された画像をより高品質にしたい場合は、画像内のオブジェクトの明らかな特徴や美的スタイルの正確な表現など、画質と美的要素を考慮する必要があります。さらに、重複排除処理も必要であり、これには基本的なオペレーター機能のサポートが必要です。

したがって、清掃に関しては、基礎となる基本的なオペレーターのインフラストラクチャも非常に重要なタスクです。Baidu には、画像特徴付けシステムの基本レベルで長年の蓄積があるため、収集したデータの利点に基づいて、モデルのさまざまな目標に基づいてサンプルを迅速に整理し、フィルタリングすることができます。たとえば、より優れたセマンティック サンプルが必要であり、バランスの取れたサンプルを実現する必要があり、いくつかのポートレートや特別な IP コンセプトを含む、さまざまなレベルの品質と美しさを持つサンプルを蓄積する必要があります。これらのサンプルをすぐに学習して、モデルに適用します。

司会者: 大規模な画像モデルを生成するには、トレーニング プロセス中に高品質のデータセットを準備し、適切な基盤を確立する必要があります。一方、ユーザーは、カップを使用するときにさまざまな複雑な説明を提供する可能性があります。たとえば、カップを説明するために、ユーザーは、背が高い、透明、青い、コオロギが入っているなど、多くの形容詞を追加する可能性があります。標準モデルでサポートされるトークンの長さ。特に中国語のコンテキストでは、ユーザーの説明が長くなる可能性があります。たとえば、先ほど述べたように、北西の風が吹き、雪の結晶が後ろに落ちる中で、帽子をかぶった猫が山の頂上に立っています。この場合、多くの記述子や形容詞を含む画像を扱うのは難しいでしょうか?

TianBao : とても良い質問ですね。画像とテキストの組み合わせの品質は非常に重要です。現在、誰もが主に懸念しているのは、オープンソースの Laion-5b (50 億サンプルを含む英語モデル) であり、主に英語のデータセットに基づいており、中国語のデータは比較的少ないです。同時に、このデータセットから、何らかの不純物によって引き起こされる可能性のある、無関係な画像とテキストのペアに関する多くの問題も観察されました。したがって、相関モデリング アルゴリズムを使用して、これらの無関係な画像とテキストのペアを除外する必要があります。

Laion-5b などの中国語のデータセットを使用する場合は、英語から中国語に翻訳するという、より高速な方法があります。ただし、この方法では、多くの言語的曖昧さ、特に中国語と英語の間の表現の曖昧さ、および中国語に特有の意味論が生じる可能性があります。たとえば、「トランスフォーマー」を中国語に翻訳すると「transformer」となり、アバターを指す場合は「Avatar」となる可能性があります。これらはいずれも中国語コーパスの構築が不十分であり、中国語の理解力が不足していることが原因です。先ほどの画像とテキストの相関品質の問題ですが、低品質の画像とテキストのペアをフィルタリングするには、従来のCLIPScoreと同様の方法で画像とテキストの相関を測定する必要があります。

もう 1 つの方向は、高品質のデータセットの構築です。結局のところ、写真は数百語で非常に詳細に説明できますが、現在、インターネット上にはそのような詳細な説明に関するデータが比較的少ないのです。現在のインターネット上の説明は簡潔なものが多く、タグが数十個しか含まれていない、あるいはそれより少ない場合もあります。したがって、高品質のデータセットを構築するには、テキストの説明を補完するために、テキストの説明の強度と視点を備えた高品質の画像をいくつか組み合わせる必要があります。通常、人々は画像の主題と芸術的概念を説明するかもしれませんが、背景、オブジェクトの数、画像内の基本的なエンティティの説明を無視することがあります。したがって、画像とテキストをどのように整合的に理解するかが、ヴィンセント図の構築にとって非常に重要です。

したがって、高品質のサンプルを提供するという問題に対しては、キャプション生成モデルなど、画像生成タスクにより適したモデルが必要になる可能性があります。Baidu はこの分野である程度の経験を蓄積しているため、低品質のサンプルを削除し、価値の高いサンプルを構築するために、これらは画像とテキストの位置合わせに必要な機能です。

04 絵の美しさの評価

司会者: 確かに、このプロセスは私が想像していたよりもはるかに複雑です。今おっしゃったのは、低品質なものを排除して高品質を維持することが重要だということです。低い値と高い値というのは画質を意味しますよね?画像を生成する際、猫を生成したい場合は、まず猫である必要があり、次に見た目が美しい必要があります。それは猫の形に適合する必要があり、あるいは犬の形に適合する必要があり、美しさは非常に主観的なものです。例えば、猫であっても、丸くて太っていて毛むくじゃらの猫が好きで、団子のようなものが良いと考える人もいますが、猫は猫らしくあるべきで、猫の特徴や猫の特徴を備えていなければならないと考える人もいます。頭は頭、脚は脚、首は首です。この場合、百度は猫がどのような姿であるべきかという問題にどのように対処するのでしょうか?

天宝「美学については、先ほどもお話したように、主観的な認識です。実際、それは人それぞれ違います。美に対する認識は人それぞれ異なるかもしれませんが、ここでは実際に、それをすべての人を通して活用したいと考えています。一部の人々の美的認知は主張しています」美学のいくつかの定義。

たとえば、美学の定義には、画像の構成、画像の全体的な構造がどのようなものであるかが含まれることが多く、また、彩度、コントラスト、全体的なカラーマッチング、光の認識などの色の適用も含まれます。スタジオの照明設定として、さまざまなシーンに適したより適切な照明を作成する方法を説明します。視覚的な色の定義に加えて、画像の内容は、画像の内容の豊かさや画像の物語などの美学も反映することができ、これらはすべて画像内の内容で構成されます。したがって、これらの寸法は、より普遍的な美的基準を形成します。

私たちはこれらの美的基準に従い、独自の美的認知を構築し、モデル全体の構築やアルゴリズムの最適化など、これらの高度な基準に従って適切な指導と評価を実施します。見た目の美しさに加えて、画像の鮮明さも全体の質感に影響します。同時に、コンテンツの一貫性も重要です。3 本足の猫が表示された場合、コンテンツ エンティティの不一致は欠陥につながり、画像の使いやすさと美しさに間接的に影響します。

司会者:先ほどコンテンツの一貫性についてお話がありましたが、それをさらに発展させて、この概念について説明していただけますか。

TianBao :コンテンツの一貫性は、コンテンツの品質または可用性として大まかに理解できます。たとえば、手を描いたときに手の変形や歪みがある場合、これは実際には私たちの通常の手の概念と矛盾しています。これにより手のエンティティに一貫性がなくなるため、品質に問題があると考えられます。

05 ヴィンセント図プロンプトプロジェクト

司会者: シーンや用途によって美的要件も異なりますが、帽子とサングラスをかぶった猫を例にとると、ユーザーは視覚体験に大きな違いがある日本のコミックとアメリカンコミックなど、さまざまなスタイルのコミックを生成したいと考えるかもしれません。アメリカのコミックは通常、色彩豊かで輪郭がはっきりしているのに対し、日本のコミックは主に白黒で視覚的なインパクトが強いです。コンテンツの一貫性を確保するという要件の下で、Baidu はさまざまなスタイルのユーザーのプロンプトから関連情報をどのように取得して、さまざまな絵画スタイルの生成をサポートしているのでしょうか?

TianBao : 現在のテキスト生成グラフの応用シナリオを見てみましょう。現在、主流のインタラクションでは、通常、コミック スタイルや水彩スタイルなど、特定のスタイルに対して明確に定義されたオプションがいくつかあります。ただし、ユーザーにとって、サイバーパンク風の猫を生成する必要がある場合、漫画スタイルで描画することはユーザーのニーズを満たさないなど、制約が多すぎてはなりません。つまり、ユーザーは猫など、生成された画像に表示されるものだけでなく、希望する画像スタイルも記述することができます。したがって、Baidu 検索はコンテンツとスタイルの面でユーザーの多様なニーズを満たす必要があります。

Baidu Search では現在、数千の異なる画像スタイル定義をサポートしています。たとえば、ユーザーは猫を水墨画や漫画として、あるいはアルミニウム製品や彫刻として、さらにはさまざまな素材としてレンダリングすることができます。さらに、ユーザーは、モーション ブラー効果、タイムラプス写真効果、魚眼や広角の視点など、さまざまな視点を選択することもできます。さまざまなスタイルとカテゴリをカバーしているため、ユーザーがより具体的なスタイル要件を持っている場合は、プロンプトに関連するスタイルを含めるだけで、期待を満たし、対応するスタイルを持つ画像が表示されます。

司会:もう一つ質問したいのですが、スタイルのオーバーレイについてですが、この操作はサポートされていますか?たとえば、魚眼広角と水墨画スタイルを同時に画像に適用できますか? 1 つは絵画のスタイルに関するもので、もう 1 つは遠近に関するものであるため、水墨画と漫画のスタイルを組み合わせたい場合、これもサポートされますか?

TianBao : モデルに関しては、複数のスタイルをサポートすることが可能であり、新しいスタイルの創造性を刺激することができます。ただし、私たちが直面するもう 1 つの問題は、コンテンツの一貫性を維持しながら、複数のスタイルを効果的にブレンドして調整する方法です。異なるスタイル間の違いは非常に大きいため、相互に制約が発生する可能性がありますが、これによりユーザーは実験と探索の機会が増え、異なるスタイルの組み合わせを試すことでより広い創造的スペースを実現できます。

司会者:最終的な主題を説明するために複数のスタイルキーワードがある場合、写真全体の効果はキーワードの位置と密接に関係していますか?たとえば、インクと漫画のスタイルの猫と漫画のインクのスタイルの猫の効果は同じでしょうか?

TianBao : これは実は、今言った制御性にも関係します。最も基本的なところでは、先ほど述べた猫と同じです。それは、特にスタイルに関して、生成するコンテンツをどのように制御するかということです。実際、プロンプト方法が異なれば結果も異なる可能性があるため、制御性はプロンプト方法全体に関連しています。2 つの異なるスタイルを並べて入力するなど、短いプロンプトを提供する人もいれば、より詳細なプロンプトを好む人もいます。たとえば、シーンの外観を説明したり、特定のスタイルを指定したり、画像の比率を強調したい場合があります。世代の特定のスタイル。これらはすべて、コンテンツの生成方法に影響を与える可能性があるさまざまなプロンプト メソッドです。

そして、この種の制御性には、実際にはこの順序にいくつかの偏りが存在します。例えば、Stable Diffusion のプロンプト錬金術では、プロンプトの書き方や、プロンプトを前に置いた方が良いか後ろに置いた方が良いかなどについても言及されていますが、実際には、本質的には一種のコントロール能力です。そのような逸脱があってはなりません。もちろん、ユーザーの頭の中にあるイメージをより正確に表現できるように誘導できることが最も理想的です。

司会者: Baidu では数千のスタイルをサポートしていると先ほど言いましたが、この数千のスタイルは手動で分類されているのでしょうか、それともモデルのクラスタリングによって自動的に生成されるのでしょうか? ユーザーにとって、非常に多くのスタイルから選択できることを知ると、最初は少し圧倒され、その中から選択するのが少し難しく感じるかもしれません。

TianBao :スタイルに関しては、先ほど述べたように、ネットワーク全体のコンテンツに対する認識が非常に広範囲にわたるため、ネットワーク全体に存在するさまざまなスタイル データを認識する能力があります。2 番目のポイントは、画像の理解にも依存しているということです。集約アルゴリズムであれ、スタイルの美しさの記述であれ、まずデータが必要であり、その後、データのスクリーニングと識別機能を通じて、自然にプレゼンテーションを行うことができます。これらのスタイル。これがスタイルの定義方法です。

さらに、先ほど述べたように、たとえば、現在私たちは何千ものスタイルをサポートしていますが、芸術的なユーザーにとって各スタイルは依然として相対的に異なる可能性があるため、実際、ユーザーにとっては認知プロセスを経る必要があるかもしれません。 。たとえば、私たちが普段見ている写真とは大きく異なるスタイルがあり、視覚的にも強いインパクトを持っています。では、ユーザーがこのスタイルを理解し、ニーズを満たす次の作品にこれらのスタイルを適用できるように、既存のスタイルをユーザーにうまく伝えるにはどうすればよいでしょうか?これには実際、総合的な製品、つまりテクノロジーに導かれた作業が必要です。

司会者:先ほどおっしゃったように、何千もの異なるアートスタイルがあります。非専攻の美術学生や一部のプロの美術学生であっても、デッサンや水墨画など、通常は 1 つか 2 つのスタイルしか知りません。実際、これほど多くの異なるスタイルについて深い知識を持ち、適切な即語を書く人はほとんどいません。では、ユーザーがプロンプトワードの書き方を知らない場合はどうすればよいでしょうか? たとえば、初めて Baidu を使用するユーザーは、誰かが教えてくれない限り、Baidu が何千ものスタイルをサポートしていることを知らないかもしれません。この場合、どのように対処し、Baidu のさまざまなスタイルやその他の書かれるプロンプト単語についてさらに学ぶように指導すべきでしょうか?

TianBao : 芸術的なスタイルと創造性に関して、人々は「ミッドジャーニー」というキーワードに触れる機会が増えています。これは、想像力をゼロから刺激するプロセスを説明する例として使用できます。初期の運用プロモーションでは、一部のリソースがプロンプトの言葉をあまり最適化しませんでした。通常、「犬」などの比較的単純なプロンプト単語が提供されます。ただし、これはディスココミュニティをベースにしており、すべてのユーザーが参加できます。ふわふわした犬を説明するためにプロンプ​​トの単語を変更しようとするユーザーもいますが、レーザーの目を持った犬はどのように見えるかなど、SF テーマを好むユーザーもいるかもしれません。継続的な実験を通じて、さまざまなプロンプトワードを使用すると、より魅力的または興味深い効果を達成できることがわかります。その結果、他の人がどのようにコンテンツを作成し、どのようにプロンプ​​トワードを設定し、それがどのような影響を及ぼしたかを観察し、互いに学び合うことになりました。したがって、プロンプトワード最適化は徐々に普及してきています。この問題は、Baidu Search や Wenshengtu を含む業界全体と同様です。

一般のユーザーにとって、ヴィンセントの写真のシーンに触れる機会は少ないかもしれません。初めてのユーザーの場合、猫や子犬を描こうとするのが一般的ですが、比較的単純な環境でユーザーにとってより良い結果を生み出すにはどうすればよいかという疑問が生じます。

これには、プロンプトの拡張または書き換えが含まれます。ここには2つの考え方があり、1つは絵​​の内容の豊かさ、あるいはストーリー性のようなものを拡張するというものです。たとえば、先ほどの帽子をかぶった犬が怒ったようなしぐさをすることで、絵がよりリアルになりますが、実はこれはプロンプトの最適化によって行われたものです。スタイルを展開することもできます。このコンテンツに対して最も多くの人が好むスタイルを把握し、このプロンプトを使用してさらにスタイルを展開できます。上で述べたように、スタイルの拡張と多様性に加えて、コンテンツの豊富さ、ストーリーテリング、スタイル、画像の美しさを大幅に最適化できます。したがって、これには、単純に表現されたプロンプトの入力を、最適化を通じてモデルにとってより適切なプロンプトのセットに変換する方法が含まれます。

司会者: プロンプトの書き換えなど、議論する必要があるより具体的な問題があります。たとえば、プロンプトを犬の説明から、帽子をかぶって怒っている犬のジェスチャーに変更したとき、ユーザーは実際に上書きされた部分を見ることができませんでした。各書き換えが同じであることを確認できますか? それとも、それぞれの書き換えがわずかに異なる可能性がありますか? たとえば、1 回目は帽子をかぶった犬、2 回目は眼鏡をかけてビーチに横たわっている犬である可能性があります。このプロセスはランダムですか、それとも毎回固定ですか?

TianBao : プロンプトの書き換えに関しては、実際には、より多様で豊かな結果をユーザーに提供したいと考えています。なぜなら、それが犬であれば、被写体は犬であると想像できるからです。犬種はさまざまかもしれませんが、犬はさまざまなシーンでさまざまな服を着て登場する可能性があります。これはより多くの人向けです。より多様な結果が得られ、誰もがそうするでしょう。もっと期待してください。そのため、モデル レベルでは、プロンプトの書き換えと最適化を通じて、より多様な選択肢が得られることが期待されます。その後、ユーザーの実際のフィードバックに基づいて、ユーザーがどのスタイルと種類のコンテンツ シナリオを好むかの全体像の結果を認識できるようになります。関心を持ち、事後フィードバックは比較的高くなります。これは、プロンプト書き換えモデル全体に​​データを促進する効果もあります。

06 フィードバックと評価

司会:先ほど書き換えの話が出ましたが、ユーザー側からのフィードバックを集めてモデルを反復するということですが、RLHF(Reinforcement Learning from Human Feedback)という言葉があります。ここで最も難しい点は、主観的な意見は人によって大きく異なるため、人間のフィードバックが不安定であることだと思います。モデルを反復するために人々のフィードバックに依存する必要がある場合、実際にはより困難になります。モデルの評価について言えば、この場合、Baidu は画像生成の方向でどのようにバランスを管理し、評価するのでしょうか。

TianBao :事後フィードバックに関しては、まずフィードバック データが実際に人間の事後フィードバックを表現できるかどうかを検討する必要があります。これにはフィードバックの品質に対する要求が高くなります。したがって、この側面を製品の全体的なデザインとユーザー インタラクションに統合して、よりポジティブなユーザー行動フィードバックを収集できます。たとえば、ユーザーが特定の結果に興味がある場合、画像をクリックして拡大し、ダウンロードなどの後続のアクションを実行する可能性があります。これは肯定的なフィードバックです。ユーザーが写真に「いいね」をしたり、コメントしたりした場合にも、直接フィードバックが提供されます。これらのフィードバックは実際にユーザーの好みを反映しているため、フィードバック システム全体でより効率的にこれらのフィードバックを収集したいと考えています。曖昧なフィードバックに関しては、サンプルサイズが大きい場合にのみ、より代表的なデータを収集できます。

司会:従来は、従来の統計機械学習にしろ、標準的な深層学習モデルにしろ、基本的には教師あり学習で、F1スコアやIQZ、VCRなどの指標を計算するにはサンプルや教師が必要でした。ただし、GPT シリーズ モデルや DALL-E などの生成モデルの場合、これまでのように誰もが生成して評価できる標準的なベンチマーク データ セットは技術的に存在しません。対照的に、生成モデルでは、人間の観察にいちいち依存するのではなく、より効率的な評価方法が必要です。この分野で、人々に各項目を個別に肉眼で見てもらうのではなく、より効率的に評価する方法はあるのでしょうか?

TianBao :より効率的な方法には、実際には人間とマシンの統合がさらに必要になります。前述の画像評価と同様に、いくつかの予備的な機械インジケーターを通じて観察を行うことができます。

全体的な関連性や品質の美しさに焦点を当てる場合、特定のマシンの指標に基づいていくつかの特徴付けを行うことができます。ただし、2 つの画像の違いを正確に評価する必要がある場合、これらの機械指標はあまり重要ではないため、手動で判断する必要があります。前述した機械による事前評価により、人による事前審査が可能となり、人手による評価の省力化が図れます。

07 今後の展望

モデレータ: さて、次の質問は、それほど遠いことではありませんが、少し将来のことを考えたものです。なぜなら、最近多くのスタートアップチームや関連企業がこの分野に挑戦しているのを目にするからです。アニメーションを例に挙げると、アニメーションは実際には複数の画像のフレームを重ね合わせて表現されます。通常、アニメーション映画は 24 フレーム/秒または 16 フレーム/秒で再生されます。静止した単一画像の編集に加えて、AIGC の分野では、3 秒のビデオであろうと、7 ~ 8 秒のビデオであろうと、ビデオ生成または短いビデオ生成が絶えず発展していることがわかります。以前、Runway チームはビデオ生成に Vincentian ダイアグラムを使用するコンテストを開催しました。将来どれくらい早く、初めて完全に AI によって生成された映画や映画の状況が見られると思いますか?

TianBao : 画像生成について簡単に見てみましょう。2022 年の初めには、画像生成効果は特に理想的ではありませんでしたが、2022 年の 7 月と 8 月までに、全体的な効果はより実現可能になりました。技術の発展傾向によれば、ダイナミックなグラフィックスやビデオの生成により、それほど遠くないうちに急速な技術開発が起こることが予想されます。なぜなら、最近ビデオ生成の分野では、制御可能な生成方法に基づくものでも、Runway のような数秒の短いビデオを生成する方法に基づくものでも、多くの研究が行われているからです。数秒の短いビデオの場合、より一貫した長いビデオを実現するために、通常、最後に生成されたフレームを次のセグメントの最初のフレームとして使用します。ただし、ビデオ生成には、空間効果を確保する必要があるだけでなく、時間的一貫性も確保する必要があるため、より大きな課題があり、これにより余分な次元が発生し、より技術的に要求が厳しくなります。最近ビデオ生成の継続的な探求が行われているため、今後 1 ~ 2 年以内に安定した拡散のような革命的な瞬間が起こる可能性があると予想されます。

採用

Shengtu R&D チームへの参加を歓迎し、引き続きビジュアル アルゴリズム R&D エンジニアを募集しています。

履歴書を [email protected] までお送りください。メールの先頭に [履歴書の提出] を付けてください。

- 終わり -

推奨読書

コード欠陥検出分野における大規模モデルの応用実践

Python スクリプトによる OC コード再構築の実践のサポート (2): データ項目はモジュール アクセス データ パスのコード生成を提供します

Baidu のオープンソース高性能検索エンジン Puck について InfoQ に相談してください

検索プレゼンテーション層のシナリオ技術に関する簡単な説明 - TanGo の実践

初めての検索入門: Baidu 検索プロダクト マネージャーの最初のレッスン

Alibaba Cloudが深刻な障害に見舞われ、全製品が影響(復旧) Tumblr がロシアのオペレーティングシステムAurora OS 5.0 を冷却新しいUIが公開 Delphi 12とC++ Builder 12、RAD Studio 12多くのインターネット企業がHongmengプログラマーを緊急採用UNIX時間17 億時代に突入しようとしている (すでに突入している) Meituan が兵力を募集し、Hongmeng システム アプリの開発を計画Amazon が Linux 上の .NET 8 への Android の依存を取り除くために Linux ベースのオペレーティング システムを開発独立した規模はFFmpeg 6.1「Heaviside」がリリースされまし
{{名前}}
{{名前}}

おすすめ

転載: my.oschina.net/u/4939618/blog/10141502