杠上了,AI绘画圈激烈开战,Midjourney 和 Stable Diffusion 双双更新!

杠上了,AI绘画圈激烈开战,Midjourney 和 Stable Diffusion 双双更新!

Part 1. Stable Diffusion XL 0.9图像生成重磅升级:35亿+66亿双模型

前段时间,Stability AI 的 CEO Emad Mostaque 陷入争议漩涡,成功的背后是偷代码、学历造假、拖欠工资、虚假宣传等。Mostaque 无疑是一个会讲故事的创始人,虽屡遭质疑,但依然不影响 Stability AI 登上时代杂志。

在这里插入图片描述

6月22日,Stability AI 发布了最新版的Stable Diffusion XL 0.9(SDXL 0.9)。继4月成功发布Stable Diffusion XL beta测试版后,SDXL 0.9在图像和构图细节方面比前者有了巨大的改进。

SDXL 0.9 进步的关键驱动力是它的参数比测试版有了显著增加,是所有开源图像模型中参数数量最多的一个。beta测试版用了单个31亿参数的模型,而 SDXL 0.9 具有35亿参数基础模型和66亿参数模型的集成管线。

SDXL 0.9 在两个CLIP模型上运行,包括迄今为止训练的最大的OpenCLIP模型(OpenCLIP ViT-G/14),这增强了SDXL 0.9的处理能力和创造具有更大深度和1024x1024更高分辨率的逼真图像的能力。

尽管 SDXL 0.9 具有强大的输出和先进的模型架构,但它能够在现代消费级GPU上运行,只需要Windows 10或11,或Linux操作系统、配备16GB内存,以及具有8GB以上显存的英伟达RTX 20系显卡即可。Linux用户也能够使用16GB VRAM的兼容AMD卡。

下面来下SDXL 0.9和beta测试版在图片细节上的不同。

在这里插入图片描述

图注:左:SDXL Beta版,右:SDXL 0.9

在这里插入图片描述

图注:左:SDXL Beta版,右:SDXL 0.9

在这里插入图片描述

图注:左:SDXL Beta版,右:SDXL 0.9

Part 2. Midjourney 5.2更新:相机变焦、画面扩展、自定义风格

Midjourney V5版本,5月迎来了一个小版本更新:V5.1就很让人惊喜了。和之前的版本相比,V5.1更具主观性,短提示也容易多,还加了一个“无主观性”模式(RAW Mode)。相比V5.0,V5.1表现出更高的连贯性、对文本提示更加精确、边框或文本残留物更少、改善了锐度。

6月23日,Midjourney 推出了最新 Midjourney 5.2 版本,此次主要的更新的引入了“Zoom out”功能。在其他AI图像生成器中通常称为“outpainting”,就是画面扩展功能,让AI放大已经生成的图像。

在这里插入图片描述

图注:Midjourney 所发布的推文

Midjourney 5.2 的「Zoom out」功能通过 1.5 倍、2 倍以及自定义缩放,将相机拉出,并填充所有侧面细节,达到重构图像的效果。简单的说,Midjourney 5.2 可以模拟相机的“超广角、中长焦”效果,为图像添加不同焦段下的透视细节。

我们先来看看「Zoom out」带来的三种不同风格的变焦模拟,分别是原始图像“镜头焦距”的 0.5、1.5 倍、2 倍效果。即原图(1.0 倍变焦)采用 50mm 焦距,则可以生成介于 28-35mm、75mm、100mm 的透视效果。

2张的效果图是这样:
在这里插入图片描述

在这里插入图片描述

四张的效果图是这样:
在这里插入图片描述

在这里插入图片描述

Midjourney 5.2 版本中还提供了其他功能,例如“Make Square”,可用透视风格压缩图片长宽,使之成为正方形。
在这里插入图片描述

新功能“Variation Mode”则允许用户对图像的视觉差别进行微调,有高 / 低变化模式两种可选,如下图所示。下图左为低变化模式,右为高变化模式。

在这里插入图片描述

图注:左为低变化模式,右为高变化模式

新功能是「shorten command」,允许用户对 prompt 进行分析,从而了解哪些单词不会对输出图像产生任何作用,哪些单词是决定输出图像效果的关键。
在这里插入图片描述

Midjourney 经过训练可以创建具有艺术闪光点和丰富视觉美感的图像,这是它与 Stable Diffusion 等的区别之一。因此,Midjourney 5.2 的风格化命令(stylize command)显得更具特色。

用户还可以使用 stylize 参数来简单对生成的图片画风进行修改,并可以分析提示词,让用户得知哪些提示词不会对输出图像产生任何作用,哪些提示词可以主导输出图像效果。下图左没有使用风格化功能,图右为使用了风格化功能,二者的效果显而易见。
在这里插入图片描述

欢迎各位关注我的个人微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

参考:
https://stability.ai/blog/sdxl-09-stable-diffusion
https://nftnow.com/guides/midjourney-5-2-a-guide-to-the-latest-tools-and-features/

猜你喜欢

转载自blog.csdn.net/u012744245/article/details/131570892