要点初见:AI绘图工具的部署资源、攻略整理(下篇)

关于AI绘图工具的部署资源可参考上篇:https://blog.csdn.net/m0_37857300/article/details/127228680

本篇主要整理AI绘图工具的部署攻略,博主挑选了一些易于实操的文章方便大家在自己的平台上玩转开源AI绘图工具——Disco Diffusion、Stable Diffusion。

此处补充一下上篇中关于DALLE2模型的部分,仔细看了DALL·E 2【论文精读】_哔哩哔哩_bilibili后,我们可以通过DALLE模型与2代模型之间的思路对比,初探AI绘图工具在2022年上半年DALLE2模型提出后得以飞速发展的理念所在:

DALLE模型主要采取CLIP模型,将文本整体与图像整体配对,这也导致了如果没有完全配对的文本-图像对时,效果会不大理想。

DALLE2模型先从文本生成文本特征,再由文本特征生成图像特征(这一步从DALLE模型中将图像文本对拿来作为ground truth去监督),最后再用解码器扩散生成图像。这种方法在文本整体没有完全配对的图像时,通过分解出的文本特征还是能生成和新文本整体相关的图像。

可以看到扩散模型配对细节的改进是AI绘图真实性提升的关键,虽然会损失一些多样性。

三、AI绘图平台部署攻略整理

此处主要介绍易于本地部署的Disco Diffusion、Stable Diffusion项目:

1、Disco Diffusion

(1)在colab上使用谷歌资源远程部署:https://colab.research.google.com/github/alembics/disco-diffusion/blob/main/Disco_Diffusion.ipynb

(2)ubuntu平台简单部署:使用Disco Diffusion描述梦境 - 知乎

(3)输入描述细节分析:Disco Diffusion 体验如何?你用它跑出了哪些图? - 知乎

(4)参数调整与进阶技巧:

人工智能绘画工具 Disco Diffusion 入门教程 - 知乎

Disco Diffusion 快速入门_一只大老铁的博客-CSDN博客

最全AI绘画Disco Diffusion教程

2、Stable Diffusion

(1)在colab上使用谷歌资源远程部署【强烈安利!】

用Colab免费部署自己的AI绘画云平台—— Stable Diffusion - 知乎

(2)Windows端本地部署:

好文摘读:家中离线运行Stable Diffusion AI文本绘画系统【文末增补实测问题解决】 - 知乎

Stable Diffusion 本地部署教程 - 哔哩哔哩

(3)Windows端本地部署,主要用于二次元作画:

AI作画stable diffusion 本地化的教程收集·进阶教程(二次元向)收集·资源指路 - 哔哩哔哩

(4)在云服务平台上进行部署【商业潜力拉满】:

轻松部署你自己的 Stable Diffusion 云服务 - 知乎

(5)优秀模型novelai的贴吧整合版【闭源模型被泄漏出来了】,主要用于二次元作画:

novelai的个人整合版,最新设置后接近95%官方效果【绘画吧】_百度贴吧

链接:https://pan.baidu.com/s/1iAIySPb3MkPmOndxRoNL7g
提取码:aabb

 

四、一点发散随想

AI绘画工具在2022年4月后迭代飞快,OpenAI、谷歌、百度等等相继提出了大模型,Github上又相继开源了不少方便本地部署的大差不差的小模型,在这种技术飞奔向前的时候就会产生不少困惑和矛盾,笔者在此抛砖引玉,简单阐述一下个人的看法:

Q:人类/AI画师如何预防自己的笔稿为经允许被作为AI绘图工具的训练数据?

A:理论上可以通过在图像中增加对抗性隐水印的方式,使AI无法正常的从目标图中学习得到正确的结果。

隐形水印简单说是一种在图像上增加需要每个像素点通过特定数学函数后才能肉眼看见的标志,使用的数学函数可以是傅立叶变换等,而正常看来这张图并无任何水印特征,这是因为图像本身大多是冗余的,即便微调少量像素也难以用肉眼分辨。该方法已经在各类公司聊天工具上使用,以预防泄密,网上也有大量开源的隐水印添加方法。

而对抗性图像则是先前将机器学习用于计算机视觉识别时就产生的概念,可以参考这篇论文:https://arxiv.org/pdf/1907.07174.pdf。简单来说,通过神经网络的计算机视觉和人眼看到的目标特征完全不同,研究者们发现人工智能识别系统无法/错误识别相当一部分的图片,抑或在一张图中增加固定的噪声,人工智能识别系统就会识别错误或无法识别(是不是和隐水印很像)。上述的论文链接中即是来自UC Berkeley等高校的研究人员创建了一个包含7500个“自然对抗实例”的数据集,在测试了许多机器视觉系统后,发现AI的准确率下降了90%。具体的代码与数据集如下:

https://github.com/hendrycks/natural-adv-examples

https://www.theverge.com/2019/7/19/20700481/ai-machine-learning-vision-system-naturally-occuring-adversarial-examples

理论上通过专门设计得到的对抗性隐水印能够阻止扩散网络从中获取有效信息,亦或在生成的图像中产生同样或类似的隐水印,从而方便维权。这一点极具商业价值。但同时隐水印的对抗也是双向的,若人为将有、无该隐水印的图像组合作为训练集,根据扩散模型的原理,能够去除这种添加的噪声。当然前提是知道隐水印的样貌,即获取特定的数学函数,背后涉及的信息安全、公钥私钥之类的内容在此不再赘述。

Q:AI绘图工具的下一步的发展方向是什么,有哪些潜在的商业应用场景呢?

A:根据目前扩散模型、生成对抗网络发展的角度来看,AI绘图工具未来可能融合二者的优点,在兼顾真实性与多样性的方向上越走越远。而潜在的商业应用场景则不仅局限于绘画、游戏领域,前端、VRARMR都有着非常广阔的应用空间,甚至可能走上类似Deepfake的路。

当下扩散模型以多样性为主,生成的图像并不完全真实,细节不足;而生成对抗网络GAN则极度真实,但多样性只能依靠加入的噪声。二者的结合势在必行。

而AI绘图短期内可以通过信息差,建立网站通过卖会员将计算资源搭配着模型提供给用户以娱乐、在二手平台上完成画作交易;中期将创造出AI绘画师、AI绘画工具开发算法等相关的热门工作,以替代重复性的原画需求(譬如动画关键帧之间的补帧、CV数据集之间的补齐);长期来看,前端、XR等将由AI工具快速提供DEMO,极大的降低开发成本,然而因神经网络需要大量的数据训练、需要大量算力计算(OpenAI那些论文都是大力出奇迹的结果,个人极难完成),但愿算力垄断的事不要发生,希望技术开源、工程互助的精神能继续流传。

汽车出现的时候,马车相关的从业者尽快学会开汽车才是硬道理。这段时间玩AI绘图工具,真的是越探索越觉得当下显存10G以上的家用GPU计算资源非常值得入手,AI绘图内容已经越来越成熟了。欢迎大家交流讨论!

由Stable Diffusion创作,“AI drawing tools“

猜你喜欢

转载自blog.csdn.net/m0_37857300/article/details/127231635