抛弃真实数据集？生成式AI“踢馆”人工智能下半场

前段时间，一款突然“蹿火”的AI自动绘画程序Disco Diffusion，在朋友圈刷屏。

只需输入描述场景的关键词，程序便会自动绘制渲染出对应的图像，效果堪称惊艳。

在这里插入图片描述

图：Disco Diffusion绘画作品

值得称道的是，这并非是现实中某幅画作的复刻版，而是完全原创的全新作品。

AI绘画，玩兴大发，新奇之外，其背后的隐藏“发动机”——生成式AI正成为人工智能战事风云的新焦点。

日前，Gartner发布了2022年重要战略技术趋势。其中，生成式人工智能（Generative Artificial Intelligence）位列12项重要战略技术之首，同时也被选入2022年银行和投资服务行业的三大热门技术趋势之一，Venture Beat则在3月20日更为直接指出深度生成模型可以为人工智能提供最有希望的前景。

在最新的“Hype Cycle for Artificial Intelligence，2021”报告中，生成式 AI 作为 2-5 年即可成熟的技术出现。

在这里插入图片描述

来源：

Gartner Hype Cycle for Artificial Intelligence, 2021

所以，生成式AI是什么？为什么被赋予如此高的期待？

1.AI训练的福音：合成数据“取代”真实数据？

“因为生成式AI解决了人工智能最为“头疼”的数据问题”。一位人工智能从业者向算力智库表示。

作为“数据驱动型”技术，获取正确的数据是构建强大AI最重要和最具挑战性的部分，但现实是：无“数”可用和采样偏见已成为行业核心瓶颈，这也导致了人工智能普遍存在的“黑盒子”问题——可解释性缺乏和数据歧视。

曾经美国使用的犯罪风险评估算法COMPAS 被证明对黑人犯罪嫌疑人造成歧视，导致白人更多被评为低犯罪风险人群，而黑人更多被评为高犯罪风险人群，这一逻辑让COMPAS 臭名昭著，而其主因则要归咎于采样过程中人为主观因素的掺杂和介入。环环相扣，连锁反应，“数据歧视”带来了“决策歧视”。

不仅是采样偏差问题，在数据可获得性上，也阻碍重重。

比如说科研人员想要训练一辆自动驾驶汽车的计算机视觉模型，往往需要投喂大量完整、干净、正确标注的高质量图像数据，而这些数据（集）却并没有那么容易获得，一是需遵守日益严格苛刻的数据隐私法规，数据共享必须慎之又慎。二是特定任务的模型训练需要特定领域的专业数据，这种专业型有效数据，本身样本就是稀缺的。

既然仰赖真实数据容易处处“碰壁”，麻烦连连，那么是否可以“另辟蹊径”？让AI自己合成数据，自己创造自己，自己进化自己？在这个设想上，生成式AI的出现有望让其成真。

对于生成式AI，Gartner这样定义：通过各种机器学习（ML）方法从数据中学习工件的组件（要素），进而生成全新的、完全原创的、真实的工件（一个产品或物品或任务），这些工件与训练数据保持相似，而不是复制。其关键技术是生成式对抗网络（GAN, Generative Adversarial Network ），在原理上，生成式对抗网络使用两个神经网络相互对立，一个生成器和一个判别器，这两个神经网络都经过交替周期训练，生成器不断学习生成更逼真的数据，判别器则更善于区分假数据和真实数据，双方在对抗中不断完善，最终生成接近于源数据的新数据或内容。

这种“新数据或内容”也即我们所说的“合成数据”，理论上来讲GAN可以创建无限数量的数据样本，这也是其被寄予厚望的重要原因。

合成数据集与真实数据集拥有相同的数学与统计学属性，但不会明确指代真实个体，也可以将其理解为真实数据的一种数字化镜像，能够在统计学层面反映实际情况，在数据稀缺的某些情况下，使用合成数据可以增加（称为数据增强）或改变训练集中的数据量以达到训练目标。如此一来，就意味着可以在完全虚拟的场域中训练AI系统，并且能更轻松地针对医疗保健、零售、金融、运输乃至农业等各类用例实现数据定制。

据 Gartner 预测，预计到 2025 年，生成式 AI 将占所有生成数据的 10%，尽管目前这一比例还不到 1%，但生成式AI与合成数据的崛起，已是可预见的必然，并且无疑会成为人工智能下半场竞逐的“新前线”，由此掀起的AI 2.0浪潮也在逼近。

2.赛道开“卷”，谁显锋芒？

Forrester Research最近明确将生成式AI及合成数据列为实现“AI 2.0”的必要因素之一，并且认为其能本质上扩展AI的应用可能性，是推动多个领域数字化进程的关键技术，可支撑下一代的自动编程、内容开发、视觉艺术、社交、商业服务、工程设计与流程自动化。

这些以生成式AI为主要驱动力的应用场景，正是目前中国AI数字商业链亟待填补的拼图。

“尽管GAN已诞生六年多，但遗憾的是，目前国内计算机视觉技术的商业应用落地仍局限于感知一块。仔细观察，国内知名的人工智能企业（如商汤、云从、旷视、依图等），他们的主要商用场景基本都是人脸识别、语音智能等，以识别与检测为主，可以说生成式AI是国内计算机视觉领域被遗落的‘一方宝藏’ ”。新加入人工智能创业公司ZMO.ai的马里千在公开采访中如是表示。

确然，在前瞻产业研究院《中国AI数字商业展望2021-2025》的报告中也指出，从目前各人工智能技术在落地应用环节的表现来看，生成式AI和组合式AI为代表的人工智能新兴技术最具增长潜力。

在这里插入图片描述

图：中国AI数字商业两大关键应用技术栈

来源：前瞻产业研究院《中国AI 数字商业展望2021-2025》

上述的这位行业新兵马里千，曾就读于北大，后前往鲁汶大学（KU Leuven）攻读博士，师从 Luc Van Gool，也是欧洲计算机视觉研究领域的翘楚之一，他选择加入的这家以生成式AI为主攻领域的初创企业ZMO.ai，于2020年成立，在今年5月份刚刚宣布完成800万美元的A轮融资。

马里千是投身于生成式AI大军里的一位，ZMO.ai亦是站在生成式AI风口初现的“探路者”之一，人才和企业的涌入，折射的是正在升温的整个赛道。

“我认为计算机视觉商用的下一个十年，AI生成势必占有一席之地”，马里千表示到。

的确，算力智库发现，在推动生成式AI商用落地的进程中，已有一批企业率先抢滩试水。

算力智库不完全统计：部分生成式AI企业/应用

在这里插入图片描述

从表格中可以看出，国内生成式AI仍处于“预热赛段”，大多是由综合性互联网大厂为实现“业务增值”而布局，原生的垂直人工智能公司反而“染指”较少，且主要的发力方向集中在“内容和商贸”两大应用领域，在以内容为流通的文娱传媒领域，比如影像、视频、图片等载体，生成式AI可以大幅提升内容生产效率，降低人工成本，而在以实物为流通的商贸领域，比如家具设计、电商虚拟试衣、工程化履约等，生成式AI化为最佳交互体验技术，辅助数字商业实现以客户体验、场景驱动为核心的增长。

以影谱科技为例，其推出的AI赛事动态内容生成方案Moviebook SAiDT是工程化履约的典型代表，为媒体机构及赛事平台提供近乎即时的AI增强内容生成能力。其发布的另一个数字商业内容生成方案Moviebook CSAI可以在极短时间内创建商品的3D可视化体验与交互，数据显示，理想状态下，CSAI方案可助力合作方实现平均交易规模增加50%，每笔交易项目增加30%，商品退货率同比减少80%，平均销售周期缩短30%。

3.生成式AI的“是与非”

光环加身，也抵不住争议不断。

GAN作为近年来深度合成（Deep synthesis）技术的基石，一开始主要被应用于图像生成模型领域，从图像生成模型，延伸出了深度伪造（Deepfake)、人脸合成、语音合成、视频生成、数字虚拟人物等不同应用。它的出现，证明了利用算法做生成可以取得如此逼真的效果。

在这里插入图片描述

图：Deepfake换脸技术

但坏也坏在“逼真”上。

Gartner指出：“可以创建和生成超逼真的内容的AI能力，将对人们相信自己的眼睛所看到的产生变革性的影响。” 并且从AI市场的5个角度进行了预测，就企业如何应对和适应这些未来的挑战提出了建议：

到2025年，预先训练的AI模型将主要集中在1%的供应商中，这将使AI的负责任地使用成为社会关注的问题。

在2023年，成功的账户接管攻击将有20%使用Deepfake，它将会成为社会工程学攻击的一部分。

到2024年，将有60%的AI提供商会将缓解危害/滥用行为作为其软件的一部分。

到2025年，将有10%的政府通过使用合成AI来避免隐私和安全问题。

到2025年，工作场所75%的对话将被记录和分析，以用于增加组织价值和评估风险。

这些分析中的每一个都足以引起“社会风暴”，如果将这些预测结合起来，就可以勾勒出未来的严峻形势，其中涉及道德问题，潜在的AI滥用以及工作场所隐私的丧失。

围绕Deepfake和生成式AI的安全问题，Gartner建议组织安排有关Deepfake的培训，并指出：“我们现在正在进入零信任的世界，除非使用加密的数字签名证明它是经过认证的，否则任何事物都不能被信任。”

犹如潘多拉魔盒的开启，在攀爬“科技树”的过程，派生的科技治理问题总是如影随形，后真相时代和虚拟化创新之间，如何适应并加以规制，这又将是一个值得探索的命题。

参考资料

《生成式AI来了，我们还能相信自己的眼睛吗？》科技云报道

《迪士尼、影谱科技等发力生成式AI，重新定义新下一代数字内容》亿欧网

《中国AI 数字商业展望2021-2025》前瞻产业研究院

《AI训练的福音：关于合成数据的一切》科技行者

《数据稀缺？生成式AI正在学习如何创造自己》澎湃新闻