计算机视觉技术——概述

通过《一叶知命》这个故事,我们看到了深度学习技术在
互联网及金融等大数据应用领域的巨大潜力,已经不会对AI在
大数据的应用领域超越人类感到惊讶了。那么在人类所特有的
能力方面,例如感知,AI的表现又会如何呢?

在人的六感之中,视觉是最重要的。

计算机视觉

计算机视觉(Computer Vision,CV)是AI的技术分支之一,主要研究如何
让计算机拥有“看”的能力。这里的“看”不仅意味着看到并
捕捉一段视频或图片,而且意味着能够分析并理解图像序列的
内容和含义。

由简单到复杂,计算机视觉技术包括以下从简单到复杂的
功能。

※ 图像采集和处理——使用摄像头及其他类型的传感器采
集真实世界中的三维场景,将其转化为视频。每段视频就是一
系列的图像,而每个图像都是一个二维矩阵,矩阵里的每个点
都代表人所能看到的颜色(这个点也就是所谓的“像素”)。

※ 目标检测和图像分割——把图像划分为若干个不同区域
和物体。

※ 目标识别——对物体进行识别(例如识别出一只狗),
并在此基础上掌握更多的细节特征(例如确认该狗为德国牧羊

犬、深棕色等)。

※ 目标追踪——在视频中定位和跟踪物体。

※ 动作识别——对动作和手势进行识别,如Xbox体感游戏
中的舞蹈动作。

※ 场景理解——对一个完整的场景(例如一只饥饿的狗正
在盯着一根骨头)进行分析并理解,掌握其中复杂而微妙的关
系。

故事中的阿玛卡为了让FAKA摘下面具露出雷波的脸,使用
了Deepfake制造工具去伪造视频,他的操作过程涉及了上述所
有步骤。

具体来看,阿玛卡首先要把一段真实的FAKA视频分解成每
秒60帧的图像,每张图像都用数千万个像素来表示;接下来,
AI会读取图像上的像素,然后自动识别并分割出FAKA的身体
(可以想象成用笔描出FAKA的身体),进而分割出FAKA戴着面
具的脸庞、嘴唇、手/手指等具体部位。AI要对视频分解出来的
每一帧图像重复这样的操作,如果是一段50秒长的视频,那么
就需要对50×60=3000帧图像进行处理。除此之外,AI还要关
联并追踪帧与帧之间的运动姿态,发掘物体之间的关系。所有
这些工作都只是阿玛卡编辑伪造视频之前的预处理。

也许你看到这里会想,原来计算机视觉这么费劲呀!做了
这么多工作,还没开始造Deepfake呢!上面提到的这些工作,

对于人类来说可都是不费吹灰之力的——人类只要看上一眼视
频,就能瞬间在脑海中抓取并消化上面提到的内容和信息。而
且,人类能够对事物进行广义的理解和抽象的认知,即使同一
物体在不同的角度、光线、距离下存在视觉上的差异,甚至有
时会被其他物体遮挡住,人类也能通过推理产生相应的视觉认
知。例如我们只要看到雷波以一种特定的姿势坐在办公桌前,
就算没有看到他究竟在干些什么,也可以推断出他正在拿着一
支笔在纸上写字。

我们在“看”的时候,调用了许多过去积累的有关这个世
界的知识,包括透视现象、几何学、常识,以及之前看过、学
过的所有东西。对于人类而言,“看”似乎是一件自然而然的
事情,但我们却很难把这项能力传授给计算机。计算机视觉就
是一个旨在克服这些困难,让计算机学会“看”懂物体的研究
领域。

计算机视觉技术的应用

事实上,目前的计算机视觉技术已经具备了实时处理能
力,应用场景覆盖了许多领域,我们每天的生活里都有这种技
术的身影,例如:

※ 化身汽车上的“助理驾驶员”,监测人类驾驶员是否疲
劳驾驶;

※ 进驻无人超市(如天猫无人超市),通过摄像头自动识
别顾客把商品放进购物车的过程;

※ 为机场提供安全保障,用于清点人数,识别是否有恐怖
分子出没;

※ 姿态识别,开发Xbox舞蹈游戏,为用户的动作打分;

※ 人脸识别,让用户“刷脸”解锁手机;

※ 智能相机,iPhone的人像模式可以识别并提取前景中的
人物,巧妙地让背景虚化,效果堪比单反相机;

※ 应用于军事领域,将敌方士兵与平民区分开,或打造无
人机和自动驾驶汽车。

在《假面神祇》的开头,我们看到:人们在穿过检票闸机
时,摄像头会通过人脸识别系统自动扣取乘车费用;行人的动

作可以激活广告牌上的卡通动物,而且通过手势,行人还能与
这些卡通动物进行互动;阿玛卡的smartstream利用计算机视觉
及AR功能,实时在街景上叠加了一条虚拟的路线,为他指明目
的地的方向……

计算机视觉技术还可以基于现有的图像或视频进行“锦上
添花”,例如:

※ 对照片和视频进行智能编辑,比如美图秀秀等软件工
具,在计算机视觉技术的支持下,可以实现优化抠图、去红
眼、美化自拍等功能;

※ 医学图像分析,比如检查判断肺部CT中是否有恶性肿

瘤;

※ 内容过滤,监测社交媒体上是否出现色情、暴力等内

容;

※ 根据一段视频内容搭配相关广告;

※ 实现智能图像搜索,根据关键字或图像线索查找目标图

像;

※ 实现换脸术,把原视频中A的脸替换为B的脸。

《假面神祇》中的Deepfake视频是用一个自动编辑视频的
AI工具做的,能够把原视频中的人完全替换成另一个人,无论

是面部、手/手指、说话的声音,还是步态、体态、面部表情等
都惟妙惟肖。

计算机视觉的基础——卷积神经网络(CNN)

基于标准神经网络的深度学习并非易事。一张图像就有数
千万个像素,让深度学习模型从海量的图像中挖掘出其中的微
妙线索并成功提取特征,是一个不小的挑战。

研究人员从人类大脑中获得灵感,拓宽了深度学习的边
界。每当眼睛看外界事物时,大脑中的视觉皮层会调用许多神
经元,这些神经元只接受来自其所支配的刺激区域(也称“感
受野”)内的信号。感受野能够识别线条、颜色、角度等简单
特征,然后将信号传递给大脑最外层的新皮质。大脑皮层会按
照层次结构存储信息,并对感受野输出的信号加以处理,然后
进行更为复杂的场景理解。

卷积神经网络(CNN)就是受人类视觉工作机制的启发而产
生的。每个卷积神经网络中都有大量类似于人脑感受野的滤波
器。这些滤波器,会在图像处理的过程中被反复使用。每个滤
波器都只针对图像的部分区域进行特征提取。深度学习的原
理,就是通过不断向模型“投喂”大量的图像实现模型的优
化,在这个过程中,卷积神经网络的所有滤波器都将自主学会
应该提取哪一个特征。每个滤波器的输出,都是它所检测的特
征(例如黑色线条)的置信度。

与大脑皮层的功能网络架构类似,卷积神经网络的架构也
有等级之分。每一层滤波器输出的特征置信度都将成为下一层

滤波器的输入,用于提取更复杂的特征。举个例子,如果把一
张斑马的图片输入卷积神经网络,那么最初一层的滤波器可能
会针对图片的每个区域检测黑色线条和白色线条;高一层的滤
波器可能会在更大的区域里检测条纹、耳朵、腿;再高一层的
滤波器可能会检测出更多的条纹、两只耳朵、四条腿;有些卷
积神经网络的最高层滤波器也许会去分辨图片中的动物到底是
斑马,还是马或者老虎。

需要说明的是,我们刚才只是为了便于读者理解,才使用
人类容易理解的这些特征来举例说明卷积神经网络可能提取的
特征(如条纹、耳朵),但在实际训练中,卷积神经网络将以
最大化目标函数为前提,自主决策每一层滤波器会提取哪些特
征,也许是条纹、耳朵,但更可能是一些超出人类理解范畴的
特征。

卷积神经网络是为计算机视觉而生的一种改良版深度学习
模型架构,而且有不同版本的变体,适用于处理不同类型的图
像和视频。

人们在20世纪80年代首次提出了“卷积神经网络”这个概
念,但可惜的是,当时并没有足够的数据和算力让卷积神经网
络发挥应有的作用。直到2012年前后,人们才清楚地意识到这
项技术有潜力击败所有传统的计算机视觉技术。

现在回头去看,计算机视觉技术其实占尽了“天时地
利”。因为正是在2012年前后,人们用开始流行起来的智能手

机拍摄了海量的图像及视频,然后把它们分享到社交网络上,
深度神经网络的训练才有了充足的数据。同时,高速计算机和
大容量存储设备的价格大幅下降,为计算机视觉技术提供了算
力支持。这些要素汇合到一起,共同促进了计算机视觉技术的
发展和成熟。

猜你喜欢

转载自blog.csdn.net/dongbao520/article/details/135222039