一文了解中国人工智能学会《AI + Art》白皮书重点

中国人工智能学会（CAAI）系列白皮书

一文了解

《AI + Art》白皮书重点

2023年9月17日，“中国人工智能学会（CAAI）系列白皮书”发布会在江西南昌举行。其中，世界首份人工智能系列白皮书《AI + Art》是由中央美术学院牵头，携手亚马逊云科技等全球人工智能领域的知名专家学者共同编撰。这一里程碑式的成果不仅为 AI 与艺术领域的交汇点提供了深度洞察，更为人工智能与文化艺术的融合发展指明了方向。

今天，我们将为大家共同分享和解读这份白皮书，探索跨学科和文理贯通的精神，通过了解技术史、科学思维和实验方法，探索未知领域。

AI 艺术的发展概述

自1956年 AI 的概念应运而生，它已历经多个高潮与低谷。最初的规则引擎及知识系统后，编写组见证了80和90年代神经网络与机器学习的崛起，揭示了 AI 在不断进化，挑战其先前的界定。近五年的进展更是飞速。计算力与数据量的巨大增长，让深度学习技术，特别是生成式对抗网络（GANs）大放异彩，该技术通过一对神经网络的对抗训练能生成接近真实的数据。这种技术的影响力可从《Edmond de Belamy》肖像画上见证，这幅通过 GAN 生成的作品，以较高的拍卖价格震撼了艺术和技术界。同时，随着业界对 AI 训练数据集版权的关注，这类作品重回聚光灯下。

然而，技术总是伴随挑战。GANs 在艺术生成上存在不确定性，其输出很难与艺术家的初始指令完全对齐。且因为训练过程复杂且需大量资源，每次创作方向的变动都要求重新训练，降低了效率。转眼到了2021年下半年，一系列先进模型如扩散模型、CLIP 以及其他预训练大模型的问世，大大推进了 AI 在艺术领域的应用。尤为出色的 CLIP，能将文本描述与图像紧密联系，为艺术家提供了更准确的生成能力。这种进步不仅仅是技术上的，更是为艺术家提供了创作上的工具升级。

现今的 AI 工具开始扮演了艺术家的辅助角色，例如利用 GANs 快速生成草图，从中筛选出最具创意的作品细化。从这一发展趋势来看，AI 不再仅仅是艺术创作的尝试，更是开始深入地、有系统地融入到艺术创作的每一个环节中。

AI 艺术的艺术史意义

在20世纪的艺术脉络中，艺术家们深受规则和结构的启发，利用预定的系统来引导、限制或放大创造力。著名的艺术家如布里奇特·莱利和维克多·瓦萨雷利采用几何模式为观众呈现视觉错觉，而理查德·朗和迈克尔·巴恩斯利则受分形理论的启示，利用数学逻辑来呈现艺术作品中的无穷细节。

这种对规则的探索不仅体现在传统的艺术形式上，还在技术与艺术的结合中得到深化。Process Art 聚焦于艺术创作过程，展现了系统与偶然性的有趣交融。科恩等艺术家甚至引入编程语言，以计算机为辅助，探索艺术的生成规则。摩尔更是在“P-511/D”系列中，通过预定义的算法，全面挖掘了立方体的各种可能性。

而观念艺术更是将规则和指令提升到了新的高度。以索尔·莱维特为例，他的壁画系列根据特定的指令创作，这些指令开放而多样，允许不同执行者带来各式各样的解读和体验。规则与自由、预测与不确定性在这里交织成一个复杂而丰富的网络，为后来 AI + Art 的发展提供了深厚的土壤。

AI 艺术的算法与工程问题

01 AIGC 算法简述

生成式技术在 AIGC 领域中也扮演着重要角色，它在数据生成和增强、无监督学习、视觉和语言生成、强化学习和策略生成，以及创意和艺术生成等方面为编写组开启了创造性和多样性的视角，推动了智能系统在创造、理解和交互方面的进步。生成式技术通过学习数据分布模型来生成新的数据样本。这些模型通常基于概率模型，如生成对抗网络和变分自编码器。

其中，生成对抗网络在图像生成领域取得了重大突破，其用于生成逼真的图像样本。后来，Tero Karras 等人提出 StyleGAN ，用于生成逼真的人脸图像。它通过在生成网络中引入风它通过在生成网络中引入风格向量，并采用渐变叠加的训练方法，生成高分辨率、多样化和具有艺术风格的人脸图像。人脸中的“Style”通常是指头部的姿态、面部的表情、人物的发型等。如图所示，StyleGAN 生成的人脸可以捕获到这些细节并生成高质量的图像，而且在不同分别率的条件下有一致的表现。OpenAI 团队提出的 GPT 基于深度自回归 Transformer 模型。它在自然语言处理任务中取得了突破性的成果，具有强大的语言生成能力和广泛的应用前景。

最近，Stable Diffusion 作为一种生成式技术，提供了一种有效的方法来生成高质量的图像样本。该方法通过对噪声进行多步扩散来生成图像，每一步都会逐渐减小噪声的规模，使生成的图像逐渐变得清晰。Stable Diffusion 在生成图像的质量和多样性方面取得了显著的进展，并被广泛应用于图像生成任务。

StyleGAN 生成结果图（来源：StyleGAN）

02 AI + Art 生成任务中的工程化问题

随着扩散模型和微调技术的进步，从2022年底开始，以 ChatGPT 和 Midjourney 为例，生成式AI技术已经被广泛应用于多种移动应用和商业产品中，实现了工程化应用，进而使其更加亲民并服务于实际业务场景。工程化主要考虑：

（1）提供优良的用户体验，包括美观、易用的用户界面和高效的构建及维护方法；

（2）灵活地获取所需的算力资源，尤其是面对资源紧张的情况下；

（3）确保生成效果的稳定性，特别是面对带有随机性和不确定性的生成式 AI 技术。

除了上述焦点，随着工程化的深入实践，新问题如模型管理和搜索、媒体资源的存储和管理等也开始浮现，需要被合理地解决以确保生成式 AI 的长期、稳定和高效的应用。

用户在应用平台中调用生成式 AI 模型，设定参数并获取反馈，而这一过程得以高效运行依赖于简洁易用和功能齐全的平台设计。此类平台主要为算法工程师、制作人和设计师服务。算法工程师在平台上主要关注AI模型的训练与调优，其中，可视化的用户界面可帮助他们更快地调整参数，减少编码量，进而优化模型效果。制作人，传统上需要与设计师多次沟通以实现自己的设计理念，现在可以通过 AI 平台直接将创意转化为图像形式，从而简化与设计师的沟通。而设计师则利用平台高效生成大量初稿，之后可以细化和完善这些设计，实现流畅的设计工作流程。

AI + Art案例

在前 AI 时代，数字创世纪被视作数据可视化的扩展，主要聚焦于虚拟空间的数字景观构建。交互性是这个领域的核心，艺术家和游戏开发者利用游戏引擎，如 Unity 和 Unreal Engine，结合艺术与代码，为观众带来沉浸式体验。但由于技术限制，前 AI 时代的数字创作通常是线性和单一的。而 AI 技术的引入为艺术家提供了更广阔的创作空间，允许更加精细和真实的虚拟环境构建，同时增强了作品的交互性。这不仅为艺术家开启了多样创作可能性，也为观众带来了新的鉴赏体验。这种技术与艺术的融合既激发了无限的创意，也引发了关于创新与伦理的讨论。

通过研究近年来的 AI 艺术案例，编写组可以深入了解这场正在进行的文化与技术的交融与变革。编写组将案例大致分为三个类别，以获得结果为导向的 AI 生成类作品、由 AI 驱动的交互式作品、涉及多智能体虚实结合的作品。

01 生成式

在早期的 AIGC 创作中，编写组注意到生产关系并没有显著的革新，研究者和创作者更多地专注于算法的创新和调整，目的是得到一个令人满意的“画面”。但随着 AI 生成任务从算法创新逐渐转向产品化，艺术家现在应更积极地参与模型的训练过程。从 AI 的视角看，当前的模型推理更像是为消费者服务。而对于创作者来说，现在应将训练 AI 模型，而非仅仅获得最终的生成结果，作为创作的核心目标。

02 AIGC 标准建设

AIGC 急需建立标准的原因可以从 ImageNet 项目和李飞飞在图像识别领域的工作中获得启示。当 ImageNet 项目被推出时，通过引入一个有标签的大规模图像数据集，它为图像识别领域设定了一个共同的基准和评估标准。这种标准化促进了技术的快速发展，因为研究者们可以在同一数据集上进行比较，分享方法和结果，从而快速推进领域内的研究。

相似地，AIGC 领域面临着多样性和复杂性，尽管 AI 艺术在国际范围内有广泛的应用，但在特定的垂直应用如中国文化艺术数字化生产中仍存在挑战。没有一个共同的标准或基准，可能导致研究和应用的碎片化。通过建立一个或多个标准化基准，编写组可以促进跨多个领域和维度的合作，从技术、设备到内容和产业，从而更好地满足公众的审美体验和实际需求。

因此，正如 ImageNet 推动图像识别领域的进步一样，AIGC 领域亟需建立相应的标准来引领和整合该领域的发展。生成艺术的评判因其涉及深度的专业知识和主观审美而变得复杂，迫切需要艺术界的专家输入（如 RLHF）来建立评价标准。合作开发的评价模型（Reward Model）可以独立于生成模型，为自动生成的艺术作品提供专家级的评分，旨在为生成领域提供更精确、科学的评价机制，并加强艺术家与技术研究者之间的连接。

AI 在艺术领域的应用涉及技术与文化的深度整合，尽管国际上的 AI 艺术应用广泛，但在满足中国文化艺术需求上仍有空缺。为了更好地服务文化和艺术行业，除了上述标准的建设，编写组需要在多个方面加强合作和研究，技术、设备、内容创作和管理等，目的是打破技术和艺术界的壁垒，并解决 AI 在数字艺术创作中的实际应用问题。

生成式艺术与数据可视化和数字创世纪之间存在一个深层次的联系。数据可视化始于将复杂的数据集转化为视觉形式，使之更易于理解和消化，而数字创世纪则涉及在数字空间中构建和塑造虚拟环境。生成式艺术，作为这两者的延伸，探索了如何使用算法和数学模型创造出新的、前所未有的艺术形式。

随着技术的进步，特别是人工智能的崛起，生成式艺术的领域得到了进一步的拓展。AI 驱动的交互为生成式艺术带来了新的可能性，使艺术家能够创造出更加复杂和动态的生态系统。这些系统不再是静态的、预先定义的结构，而是能够根据内部的规则和外部的互动进行实时的变化和演化。

03 AI 驱动交互

交互艺术强调观众的参与，与传统艺术相比更鼓励观众与作品进行实时的交互和反馈。观众往往可以通过触摸、倾听、行走等形式与作品进行互动。随着信息技术的进步，人机交互的界面也由最开始的命令界面、图形界面、多媒体界面朝着更智能、更复杂的混合形式发展。人工智能为主的交互作品，也由简单的线性互动逐渐发展为多维度，多结果的综合感官交互。

编写组观察到 AI 技术为叙事赋予了新的维度，观众可能被邀请进入一个由 AI 驱动的机器人组成的宇宙，扮演创造世界的角色，有权决定各个星球上生物的命运。通过与系统的交互，观众可以选择助长生物之间的和谐与合作，也可以选择导致它们之间的冲突或完全毁灭它们。这种叙事方式为观众提供了影响故事发展的机会，从而创造出无限的叙事可能性。

04 多智能体艺术

多智能体系统（MAS）是人工智能的一个子领域，专门研究多个自治智能体如何互相交互和合作。每个智能体都有自己的感知、决策和行动能力，并根据自己的目标进行合作或竞争。整个系统的行为由这些智能体的互动产生，能够模拟真实世界的复杂场景。艺术家如 Ian Cheng 通过作品"BOB"探索了虚拟的多智能体生态系统。在艺术领域，MAS 不仅可以模拟人类的创作过程，如集体绘画，而且还可以展示机器在互动中如何形成和优化其"意识"或"观念"。这为艺术家提供了一个新的视角，探索机器如何感知和理解外部世界。

斯坦福大学的 AI 小镇项目

对生态艺术的影响

将 AI 应用于艺术创作，能推动对 AI 算法的改进研究。通过在不同应用场景下对算法的表现进行研究和分析，可以使人们不断反思 AI 算法的极限、原理以及它的未来发展。AI 大模型的应用将促进艺术家和科技研究人员之间的交流与合作，进一步拓宽数字化创作的可能性。艺术创作不仅能够拓展 AI 应用场景，还能为 AI 算法的改进提供实验数据和实践基础。跨界合作能同时推动技术的发展和文化与艺术的数字化转型，进而推动中国式现代化进程。因此，艺术与 AI 的深度融合将成为文化数字化建设的重要方向，这也是研究 AI 在国家文化数字化建设中的重要意义所在。

《AI + Art》白皮书旨在强调跨学科和文理贯通的精神，将文化发展和 AI 统一在人文精神框架下，反思科技发展对人的精神和社会心理的影响，并持批判性思考。同时强调艺术思维对科技创新的激发，将横向、发散、逆向等创造性思维融入学科建设，以艺术探索的能量激发双向创新。在艺术学科重视AI技术发展史，通过了解技术史、科学思维和实验方法，探索未知领域。

中国文化传统的悠久历史和独特贡献，AI 技术在全球化的影响下西方文化逐渐进入中国，且对中国现代化建设和文化创新起到了借鉴和启示作用。目前 AI 艺术创作的研究成果较多来自西方，这显示出一定的研究难度，又揭示了该研究的必要性。扎根中国，学习西方的观点强调了对中国传统文化的保护和传承，同时也注重吸收和融合西方文化中有价值的元素，以此来促进中国与世界的文化交流同时提升国际竞争力、文化软实力。

星标不迷路，开发更极速！

关注后记得星标「亚马逊云开发者」

听说，点完下面4个按钮

就不会碰到bug了！

一文了解中国人工智能学会《AI + Art》白皮书重点

猜你喜欢