下のカードをクリックして「CVer」公開アカウントをフォローしてください
AI/CVの重要な情報をいち早くお届け
クリックして入力 -> [ターゲット検出と変換] コミュニケーショングループ
Mengchen は Ao Fei Si によって送信され
、転載元: Qubit AI (QbitAI)
DALL·E 3の限定テストは、Microsoft Bingによって最初に開始されました。あなたがヨーロッパの皇帝の一人であるかどうか見てみましょう?
△ Windows最新版より
資格を取得していなくても大丈夫、サードパーティのリサーチプレビューやOpenAI社員による社内トライアルと合わせて、さまざまなテストケースが次々と出てきて楽しめること間違いなしです。
最も誇張されたものは、「指定された絵の中に 50 種類のオブジェクトが出現する」というものでしたが、それらのオブジェクトは何百も描かれていました。
シンプルなタイル配置に加えて、これらのオブジェクトをより創造的に組み合わせることができます。
馬に乗った宇宙飛行士という反事実的なコンセプトについては、過去の OpenAI や Google のさまざまなモデルでは、馬に乗った宇宙飛行士しか描くことができませんでした。
この論文は一般に失敗例とみなされ、当時AI悲観論者だったマーカスから嘲笑された。
DALL・E 3 は、ChatGPT のサポートにより、これを簡単に処理できるようになりました。
今回のDALL・E 3の大きな進歩は、OpenAI自身の努力の成果だけでなく、マイクロソフトとの共同協力の成果でもあります。
明記されていないが、貢献リストの研究部分には少なくとも3人のMicrosoftエンジニアと研究者が関与しており、推論最適化部分のメンバーのほとんどはMicrosoft DeepSpeedチームの出身である。
GPT-4 を振り返ると、GPT-4 はまだ主に OpenAI によって内部開発され、その後テストのために Microsoft やその他の研究機関にオープン アクセスが与えられていました。
この協力モデルの変更は、両社の関係がさらに深まることも表しています。
1 つのペイントで 50 個のオブジェクトを指定する
Microsoft Bing CEOのMikhail Parakhin氏が認めたところによると、幸運な数パーセントのユーザーはすでにテストを受ける資格を持っているという。
場所の数は非常に限られているため、待ちきれないネチズンはオンラインでアイデアを提案し、アカウントを持つ人々にテストを手伝ってくれるように依頼しました。
50 個の異なるオブジェクトを描画することを提案したネチズンは、大規模な言語モデルの「コンテキスト ウィンドウ」と同様に、DALL·E 3 が 1 つの画像にどれだけのオブジェクトを収めることができるかをテストしたいと考えていました。
研究のプレビュー版を受け取ったサードパーティのデザイナー、ネイサン・シプリー氏がこの課題に挑戦しました。
まず、ChatGPT に毎日 50 個のオブジェクトをランダムにリストするよう依頼し、次にこれらのオブジェクトを絵に描くように直接依頼しました。完全なプロンプト ワードはChatGPT 自体によって完成され、その後 DALL·E 3 によって描画されます。
次にネイサンは、「サーファーが一生懸命サーフィンをしながらこれらの物体を積み上げているイメージを作れますか?」と尋ねました。
ChatGPT はプロンプトの単語にいくつかの詳細を追加しました。
日焼けした肌を持つ中年のポリネシア人男性サーファーは、ティーカップ、自転車、傘など、50 ものアイテムを一生懸命サーフィンしながら持ち、波が彼の周りに打ち寄せるたびに決意と軽いパニックの表情を浮かべています。これらの物体とサーフボードのバランスをとろうとしています。
その結果、キャラクターの表情が軽いパニックというより極度のパニックに近いことを除いて、基本的に要件を一度で満たすイメージが得られました。
その後、Nathan がより低い視点を要求したため、今度は ChatGPT がプロンプト ワード内の人物の説明を「年配のスペイン人女性」に変更しました。
見物人は非常に驚くべきことだと思ったが、鉛筆の大きさが他の物体と比べて不釣り合いである理由も指摘した。
特にペンの宣伝写真ではクローズアップショットが使用されることが多いため、モデルはオブジェクトがどのように見えるかだけを知っていて、相対的なサイズは知らないのではないかと推測する人もいます。
さらに、Nathan は、ユーザーが制御できる画面のパラメータを ChatGPT から尋ねました。
ChatGPT は次のように応答しました。
説明:目的の画像の詳細な説明を入力できます。より具体的で詳細であればあるほど、結果として得られるイメージはあなたの希望に近づきます。
スタイルと媒体:絵画、写真、イラスト、漫画、水彩、3D レンダリングなどの画像のスタイルまたは媒体を指定できます。
解像度:デフォルトでは、画像は 1729x1024 の解像度で生成されます。ただし、説明で全身ポートレート、または高アスペクト比に適したものが示唆されている場合、画像は 1024x1792 で生成されます。必要に応じて、正方形の解像度 (1024x1024) をリクエストすることもできます。
画像の数: ご指定がない場合、通常は説明に基づいて 4 つの異なる画像を作成します。ただし、特定の数 (最大 4 つ) をリクエストすることができます。
変更: 最初の結果に満足できない場合は、フィードバックを提供して変更をリクエストできます。既存の画像を直接変更することはできませんが、フィードバックを使用して、お客様のビジョンにより適した新しい画像を生成することはできます。
ランダム シード: 以前の画像を変更したい場合は、その画像のメタデータからのシードを使用して新しいバージョンを生成できます。これにより、元のイメージと変更されたイメージの間で一定の一貫性が保証されます。
特定の制限が適用されることに注意してください。たとえば、過去 100 年間の著名人のイメージやアーティストのスタイルを直接作成することはできません。
焦点は背面にあります。
ただし、特定のスタイルを直接引用せずに、代替案を提供したり、形容詞を使用して特定のスタイルの本質を捉えることはできます。
乗馬宇宙飛行士のパズルを解く
OpenAI 従業員の中で、DALL・E 3 試験の結果を最も積極的に開示しているのがWill DePueです。
乗馬宇宙飛行士試験では100%成功しなかったとのこと。
GPT-4 が連携して、正しく理解できるまでプロンプトの単語を調整するため、2 ~ 3 回の試行で正しく答えることができます。
ある程度の努力をすれば、欲しいものはほとんど何でも手に入れることができます。
一部のネチズンはMidJourneyを使用して同じ結果を得ようとしましたが、完全に不可能ではないとしか言えませんが、多大な労力が必要です。
ほぼ不可能であり、多くのヒントエンジニアリングが必要であり、再現するのは困難です。
経験豊富な MidJourney ユーザーであれば、それが機能するかどうかを試してみるとよいでしょう。
ネチズンが提案した「8頭のキリンが水を飲む」チャレンジで、DALL・E 3は再び正確に数を数えるという弱点を見せた。
△絵の中にキリンが何頭いるかを数えてください
さらに誤った試みもあり、双頭のキリンが生まれました。
AI に正確にカウントさせることは今回の解決にはなりませんが、少なくとも空間関係を理解するという問題は解決します。
ネチズンが提案した「草原を走る4頭のシマウマ、後ろを追うライオン、そして頭上のワシ、写真には他の動物はいない」という課題では、空間関係は基本的に正しいが、余分なシマウマがいる。
比較すると、DALL・E 2 と安定拡散はどちらも空間関係の理解が劣っています。
OpenAIでChatGPTのエンタープライズ版を担当するAdam Goldberg氏も、多くの質の高い結果を投稿しましたが、その内容については共有しませんでした。
AI 用のコードの記述とツールの呼び出しを担当するJerry Tworek は、 「Division of Mechanical Cells 」などの抽象的な概念図を数多く作成しています。
および「銀河中のコンピュータ プログラム ツリー」 。
Microsoft OpenAIが連携
今回のDALL・E 3では大幅な改良が加えられていますが、ChatGPTの統合に加えて、画像生成部分は具体的にどのように行われているのでしょうか?
残念ながら、OpenAI のトレンドがますます近づいていることを考えると、過去 2 世代のような論文は出版されない可能性が高く、寄稿リストからいくつかの推測をすることしかできません。
DALL・E 2 論文には 5 人の著者がいます。
DALL・E 3 に関しては、製品、セキュリティ、広報、法務チームを除けば、研究部分だけでも18 名が関わっています。
その中には、一貫性モデルを提案した清華大学の卒業生、楊松氏も含まれます。
一貫性モデルは現在最も一般的な拡散モデルよりも高速で、3.5 秒で 64 枚の 256*256 画像を生成できます。
しかし、今回の Song Yang の研究貢献はわずかであり、DALL・E 3 が一貫性モデルを使用したかどうかは不明であり、改善された拡散モデルに彼の手法を借用した可能性が高いです。
さらに、DALL・E 2 の作者と ChatGPT チームの Ouyang Long に加えて、少なくとも 3 人の研究者が Microsoft から参加しています。
Jianfeng Wang博士は、中国科学技術大学を卒業し、マイクロソフトで主任研究員として働いています。
Lijuan Wang博士は清華大学を卒業し、マイクロソフトでディレクターリサーチマネージャーとして働いています。
二人は無限のキャンバス画像生成であるNUWA-Ininityの研究に参加しました。
Lindsey Li は北京工業大学の卒業生で、パデュー大学とカリフォルニア大学サンディエゴ校で 2 つの修士号を取得しています。マイクロソフトの上級研究員であり、マルチモダリティの分野で多くの主要なカンファレンス論文を発表しています。
研究に加えて、 DALL・E 3 の推論の最適化には Microsoft DeepSpeed チームが深く関与しています。
Deepspeed は、コンピューティングの消費電力とメモリ使用量を削減し、既存のハードウェアでのより優れた並列処理を通じて大規模な分散モデルをトレーニングおよび推論するオープンソースの深層学習最適化ライブラリです。
多くの方が本作に参加できることを嬉しく思い、DALL・E 3のリリースを楽しみにしていました。
最後に、特別寄稿者の中には、Microsoft のBing CEO の Mikhail Parakhin氏とAzure Cloud の首席副社長 Misha Bilenko 氏も含まれています。
Microsoft はまた、以前のリリース活動で、Bing が DALL·E 3 を直接統合することを確認しました。
現在のルールによれば、Bing 上の DALL·E 2 は無料です。99 個のアクセラレーション トークンが発行されますが、トークンがないとキューに時間がかかるだけです。
ただし、DALL・E 3 は 10 月に ChatGPT Plus で月額 20 ドルかかります。
しかし、GPT-4 は Bing で無料で提供されているので、将来的には無料の DALL・E 3 ゲームの波が期待できます~
参考リンク:
[1]https://x.com/willdepue/status/1705005718666158107
[2]https://x.com/CitizenPlain/status/1705248617131291032
[3]https://x.com/MParakhin/status/ 1704563792645079143
クリックして入力 -> [ターゲット検出と変換] コミュニケーショングループ
ICCV/CVPR 2023 の論文とコードのダウンロード
バックステージ返信: CVPR2023、 CVPR 2023 論文のコレクションとオープンソース論文のコードをダウンロードできます
后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!
▲扫码进星球
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看