孙武玩《魔兽》?有图有真相

Alex 发自 凹非寺
量子位 | 公众号 QbitAI

最近,脑洞大开的外国人用DALL·EImagen对“中西结合”玩得不亦乐乎。

继“虎戴VR”之后,我国古代军事家孙武又成了新的整活目标。

测试者给DALL·E出了一道题:

让孙武玩《魔兽争霸II》游戏。

谁能想到,公元2022年,春秋时期的孙子竟在电脑上玩起了《魔兽争霸II》。

76c08f4564ca6e5079ceaaad2d3d1e15.png

整幅画面居然挺和谐,还颇具东方味

这应该是因为DALL·E跟据输入了限定词:Oriental Painting(东方绘画),确定了画风。

不过,这怎么看出来他玩得的就是《魔兽争霸II》?恐怕还需各位发挥一下想象力了。(手动狗头)

对于输入的同一段文字,DALL·E还给出了其他版本。

9664602261f67b0e8f6e55931125e38d.png

这幅图中,还体现出孙子军事家的特征。

4fef92136a93f1a6692b5d138d188ea8.png

坐在电脑前玩游戏或许还不够刺激,再把孙武设定为魔兽世界里的一个角色试试:

9f97f3344c1fa959449ebf8a0c46abd0.png
b737a3ac109f8c7e5def70799a97c327.png

DALL·E不仅完成了,还还对图像进行了3D渲染。(虽然些图片并非都有魔兽游戏的界面)

网友惊叹:这个AI居然知道魔兽世界的角色长什么样!

76211437db95c72754d2cb156d9bb7a0.png

下面说说这个“AI画师”是怎么进行创作的。

DALL·E工作原理

DALL·E本质上就是一个被120亿个参数重新训练过的GPT-3。

核心模块是OpenAI的CLIP

这是一个在各种图像、文本上训练的神经网络,负责给输入图像打分并重新排序。

其实,DALL·E在“创作”过程中生成了大量的图片。在这些图像中,和文本匹配度越高的,CLIP给的评分越高。

至于CLIP怎么分析图文匹配度?这离不开其将图片和文字“融合”理解的能力。

而这个能力归功于它的多模态神经元,具有和人脑类似的工作机制:能够对文字和图像中的相同意思同时作出响应

9ee1861877eb59e300f12f39d60b8309.png

最终,评分前几名的图片会作为输出呈现出来。(这解释了为什么输入同一段文字可以生成多张图像)

有人提出,不妨将CLIP和GAN结合起来,实现更强的功能:

让CLIP计算出图像与文字描述的相似度得分,然后反馈给GAN,让GAN以提升分数为目标不断迭代。

二代DALL·E结合了CLIP和扩散模型两种技术的特点。

其中,扩散模型在牺牲多样性的前提下,可以大大提升生成图像的逼真度。

CLIP文本嵌入首先会被传送给自然回归或者扩展先验,以产生一个图像嵌入。

然后,这个嵌入会被用来调节扩展编码器,以生成最终的图像。也就是说,图像生成是在“扩散”过程中完成的。

5e45345ff25bbba84a1a3dae74cd9bde.png

和初代相比,DALL·E 2生成图像的时间更短,图像分辨率更高。

此外,DALL·E 2在“绘图”过程中还会考虑阴影、反射、纹理等因素的变化。

例如:在左图的位置“1”放一个沙发,DALL·E 2会根据已有信息分析光线方向,并画出阴影。

671a0d5b16a9b884f6be48ad55dc3f06.png

DALL·E的“奇葩”作品欣赏

DALL·E 2官方在Instagram上展出了许多程序员和工程师们创作的“奇葩”画像。

有古罗马版蜘蛛侠。(第二张真是绝了)

Spider-Man from Ancient Rome

820614a5513cb3ef3168c139a4c44564.png
4420a19d26361d14dbda640c07df569c.png

耶稣骑恐龙画像。(耶稣看了都要直呼好家伙)

Jesus Christ wielding a samurai sword and riding on the back of a velociraptor, painting

e829a2e99b12af7b565d37a20ac7e348.png

小动物穿皮衣、戴墨镜的4K高清图。(这年头,看动物都觉得眉清目秀)

A photo of a cool wearing sunglasses and a leather jacket, 4k

2cca5407a7ca93c23c3a4563f0338c74.png
e040a9b5dff85ead770047c2325c1dbc.png

一只运动喵在新闻发布会上向记者解释它的最新丑闻的照片。

c081436baafc183b0f26533e9aa58fba.png

超现实主义作品。

Remembrance of nostalgia, surrealist painting

53bff315443a6a9cfe3883aabee222a1.png

以及赛博朋克风爱情小说封面。(那小说内容是不是可以直接让GPT-3写了?)

The cover of a cyberpunk romance novel

bd453d7b1139900ca11839119d5fac7c.png

除此之外,还有利用文字差异,对iPhone复古化的动图。

36304786e6702b83583e10259185e381.gif

One More Thing:用DALL·E改商标

除了用DALL·E 2画画外,还有一位研究员Janelle Shane使用这个工具试着为各大公司设计新商标。

e87028137d5c1b85bf5e276e4707bb0f.png

来看看有没有你中意的吧——

DALL·E 2必胜客设计的LOGO长这样:

c01c9b2645f50fc87bbe818d0aab7276.png

下面是DALL·E 2为汉堡王设计的LOGO:

9a32b18642687b27d3ada677039ca5d1.png

还有为NASA设计的LOGO:

c8b5cd86f4d27296f7e2cd58de639dd9.png

目前DALL·E还在大量数据测试训练中,且存在一定的道德挑战等因素,尚未正式向公众开放。

官方表示,有兴趣尝试者,可以报名并等待邀请。

不过大伙儿可以去DALL·E官网选择给定的关键词来玩玩。

6d927ee507ae9b1d2317d08084004133.png

例如,选择:“一个宇航员”、“在太空中的热带度假村躺着”,然后确定画风:“逼真”。

DALL·E就能根据命题画出几幅作品。

a463c1f166ee1bb869678e538bc4d621.png
e65b769d22601f3e0d76e74fb27f4e04.png

别说,还真有“太空度假村”那味儿了。

如果让你把天马行空的想法放进一张图里,你打算怎么创作?

DALL·E 2官网地址:
https://openai.com/dall-e-2/
参考链接:
https://arxiv.org/abs/2204.06125
https://www.aiweirdness.com/ai-versus-your-corporate-logo/

猜你喜欢

转载自blog.csdn.net/QbitAI/article/details/125341970