OpenAI新突破：DALL·E 3与ChatGPT协同创作，只需简单提示可生成连环画

“ OpenAI最近推出了新一代多模态AI模型DALL·E 3，相较前代在图像生成质量和细节方面有显著提升，并可根据文本描述生成对应图像。与此同时，DALL·E 3也原生集成在语言模型ChatGPT内部，使得语言提示直接转换为图像成为可能，极大简化了用户的使用流程。DALL·E 3的推出标志着ChatGPT继续向多模态方向进化，也使得未来智能代理具备语言理解和图像生成的能力又近了一步。同时，OpenAI表示会继续完善内容审核机制，以确保负责任地使用这项新技术。”

—

有朋友说OpenAI推出了DALL·E 3，在生成图像功能上，比版本2改进了很多。去网站上看了一下官方的介绍资料。

DALL·E 3 目前处于研究预览阶段，将于 10 月份通过 API 向 ChatGPT Plus 和企业客户提供。‍

DALL-E于2021年1月推出，是语言处理模型GPT-3的变体，这是OpenAI的另一个大模型，可以根据文本提示词生成图像。

DALL-E中的“DALL”向超现实主义艺术家萨尔瓦多·达利（Salvador Dalí）致敬，而“E”则指皮克斯的电影《机器人总动员》中的机器人主角：Wall-E（Waste Allocation Load Lifter Earth Class，地球版垃圾配置承载起重机）

下面是用DALL·E 3生成的示例。

中心被挖去一个大洞的牛油果坐在治疗师旁边的椅子上，说“我只是感觉内心很空虚”，旁边勺子治疗师拿着笔记录着对话。

深黑色背景前面是一个女性舞者的身影，她的皮肤丰润而有光泽，画面捕捉到在旋转中舞姿这一瞬间，她的卷发在深黑色的背景前，像风暴一样在她身后飘扬。她的裙子就像大理石和瓷器碎片的旋风。舞者在散落的瓷片光芒的照耀下，营造出一种梦幻般的氛围，看似支离破碎，却又保持着和谐流畅的形态。

从上面给的图像看，发布的DALL·E 3比前一个版本，能理解更多的细微差别和细节，这使得用户能够更省事的将设想转化为比较准确的图像，着重强调降低用户提示上的难度，关注更多文本的细节。‍‍‍‍‍

下面是另外一个关注文本细节的图像例子。‍‍‍‍‍‍‍

四处细节：‍‍‍‍‍‍‍‍

The sidewalks bustling with pedestrains enjoying the nightlife. 人行道上挤满了享受夜生活的行人。
A bustling city street under the shine of a full moon. 满月照耀下熙熙攘攘的城市街道。‍
At the corner stall, a young woman with fiery red hair, dressed in a signature velvet cloak, is haggling with the grumpy old vendor. 在街角的摊位上，一位红头发、身着标志性天鹅绒斗篷的年轻女子正在与看上去脾气暴躁的小贩老头砍价。
The grumpy vendor, a tall, sophisticated man, is wearing a sharp suit sports a noteworthy moustache and is animatedly conversing on his steampunk telphone. 这个看上去脾气暴躁的小贩是一个高大老练的男人，穿着一套笔挺的西装，留着两缕漂亮的胡子，在跟他手上的手机上不停的说着什么。

—

DALL·E3是在ChatGPT上原生构建的。

这点很重要！区别于现在的AI生成图像模型Midjourney 和 Stable Diffusion，这两个模型只能根据文字生成图像，不能生成文字，虽然目前看起来DALL生成的图片质量上不如后两者。

这标志着ChatGPT 在向多模态大模型又前进了一大步。在《大模型应用发展的方向｜代理 Agent 的兴起及其未来（下）》提及：未来的智能代理一定会有图像的输入理解和图像的输出。‍‍‍‍‍‍‍

我们之前使用文生图AI工具的通常的做法：