第二章 图像的形成 笔记

第二章 图像的形成

图像的形成主要研究从三维场景到二维图像的形成过程,其中涉及视觉传感器(相机)的性质。

本章主要研究相机模拟和场景性质对图像形成的影响。

2.1成像几何学

成像几何学研究在成像过程中,确定场景中一点在图像上投影点的坐标

涉及相机的成像模型和坐标系转换之间的问题。

2.1.1成像模型

  1. 透视投影(常见):针孔成像广泛应用。
  • 齐次坐标:用N+1维的坐标来代表N维空间中的点。在一个二维笛卡尔坐标后面加上一个额外变量w来形成二维齐次坐标。eg:二维点(X,Y),二维齐次坐标:(x,y,w)。

    • 如果点(1,2)沿着原点(0,0)与该点的连线所形成的方向移动到无穷远处,那么使用齐次坐标可以表示成(1,2,0)。由于(1/0,2/0)=(∞,∞)。

    • 点(1,3)沿着原点(0,0)与该点的连线所形成的方向移动到无限远处,使用齐次坐标可以表示为(1,3,0)。

    • 因此,可以使用齐次坐标来描述不同的无穷远点。

  • 研究相机的成像过程一般是在一个公共参考坐标系下进行的。这个公共参考坐标系称为世界坐标系

  • 针孔相机的孔径(小孔的大小)对成像的效果有很大的影响。

    • 孔径过小,会发生衍射现象(光波遇到障碍物时偏离原来的方向进行传播的物理现象),使所成的像变得模糊
    • 孔径过大,到达成像平面上某一点的光线是由多个方向的光叠加在一起形成的,也会使所成的像变得模糊
  • 总的来说,针孔相机所成的像都是比较的,这是由于图像上的一点,只有少量的光线可以到达该点。使用镜头可以使图像上的一点收集其对应场景中的点发出的更多的光线。

  1. 弱透视投影

适用于场景近似一个平面且距离摄像机较远的情况,是对实际成像过程的一种粗略近似

  1. 正交投影

使用平行于光轴的光将场景投影到图像平面

2.1.2摄像机参数

  1. 四个坐标系:

    • 1.世界坐标系(World Coordinate System, WCS)

      • 世界坐标系可以任意指定
    • 2.摄像机坐标系(Camera Coordinate System, CCS)

      • 摄像机坐标系以摄像机光心作为坐标系的原点,经过光心垂直于成像平面的直线(光轴)作为k轴,i轴和j轴所形成的平面与成像平面平行。
    • 3.图像坐标系(Image Coordinate System, ICS)

      • 图像坐标系以摄像机光轴与成像平面的交点为原点,i轴和j轴与摄像机坐标系的i轴和j轴平行。

      • 图像坐标系其实也是三维坐标系,只不过所有点的第三维坐标都一样,就省略了。

        (图像是二维的,所以所有点的第三维坐标(高)都一样,省略)

      • 图像坐标系用物理单位来衡量(m或cm)

    • 4.像素坐标系(Pixel Coordinate System, PCS)

      • 像素坐标系一般以成像平面的左上角为原点。
      • 像素坐标系用像素来衡量。

如图2-10四个坐标系
在这里插入图片描述

  1. 转换

    • 图像坐标系——>像素坐标系:是用摄像机的内置参数

    • 世界坐标系——>摄像机坐标系:通过旋转R和平移T来实现

相关博客:

  • https://blog.csdn.net/weixin_44413191/article/details/107702406
  • https://blog.csdn.net/rukawashan/article/details/124811737
  • https://www.cnblogs.com/gary-guo/p/6553155.html

2.1.3摄像机标定

摄像机标定即求摄像机内外参数的过程。

摄像机标定可以分为:

  • 传统标定方法:使用标定物
    • 基本思想:使用精确的已知形状和大小的三维标定装置来进行。
    • 详细:若以标定物的一个顶点为世界坐标系的原点建立世界坐标系,则可以准确地得知标定物上各点在世界坐标系下的坐标。拍摄图像后,可得图像上各点的像素坐标,通过公式来求解摄像机的投影矩阵,进而求解摄像机的内外参数。
    • 缺点:需要特定的标定物,而这种标定物价格昂贵,不便于使用
    • 改进:张正友提出一种基于平面约束的标定方法平面标定方法
      • 步骤:
        • 1.打印一张棋盘格A4纸张(黑白间距已知),并贴在一个平板上
        • 2.针对棋盘格拍摄若干张图像,理论上拍摄3张图像即可,但实际上为了得到较好的结果,通常需要在不同位置和不同视角下拍摄多张图像
        • 3.在图像中检测特征点(角点或者直线的交点)上建立标定板上的方格顶点与图像上特征点的对应关系。
        • 4.使用一系列式子计算得出摄像机的内外参数。
  • 自标定方法:不使用标定物,仅根据场景中的信息进行标定
  • 主动视觉方法:基于摄像机特定运动

2.2成像物理学

成像物理学研究的是场景中的点在图像上所成像的亮度是如何确定的

影响场景中亮度的因素:场景照明、场景的反射特性、相机等因素。确定了各种因素,就可以确定图像上一点的亮度;反之,可以从图像的明暗来推理相应的因素。

2.2.1成像物理模型

图像的成像过程:物体反射光源的光,反射的光通过相机的镜头,到达相机的感光区域(光电耦合器件能感应光线强度),并且被记录下来。

决定某个像素亮度的因素主要包括四个方面:

  • 相机的亮度响应
  • 物体表面的反射特性
  • 光照
  • 拍摄视角

2.2.1.1相机的亮度响应

相机的亮度响应是指拍摄场景的真实亮度与成像后像素亮度之间的关系,即每个像素对不同光亮的响应程度。

分类:相机的响应分为两种:化学的、电子的。

  • 化学的响应:胶片的成像。是通过胶片上的某种化学反应得到胶片上每一点的亮度。

胶片上所形成的亮度与到达胶片的光亮之间是非线性的关系。即场景中较暗的部分所成的像会比实际上的要亮一些,较亮的部分所成的像会比实际要暗一些,从而可以显示更多细节。

电子的响应电荷耦合器件(Charge Coupled Device,CCD)或互补金属氧化物半导体(Complementary Metal Oxide Semiconductor,CMOS)等器件对光亮的影响的响应。

  • CCD或CMOS可以把光信号转变为电信号并存储起来。
  • 人眼感知亮度的范围远远超过目前CCD所能记录的亮度范围。
  • 在一个固定场景中,人眼更多的注意中间亮度的情况,如果中间亮度范围内的对比度足够大,人眼就会觉得画面是通透的;反之,如果中间亮度范围内对比度不足,那么就会觉得画面发灰;
  • 因此对于中间亮度部分,应该使用线性映射增加中间亮度范围内的对比度;
  • 而对于亮部和暗部,则应使用非线性映射,可以部分保留亮部和暗部的信息不缺失。
  • 这样,相当于将人眼感受的亮度范围进行分配,为中间亮度分配更多的空间,而亮部和暗部则被分配的空间较少

2.2.1.1物体表面的反射特性

物体表面的反射特性是指给定了入射光,有多少入射光被反射出来。

物体的反射模型包括:镜面反射、漫反射、两种的组合

2.2.1.3光照

场景的光照决定了有多少入射光到达场景。

可以根据物体的明暗来推断场景的光照方向。

  • 光源分为:点光源面光源
  • 面光源面积更大,典型的面光源:天空、室内的白墙。
  • 在面光源下,阴影可以分为半影全影
  • 半影是指看到部分面光源的阴影部分,而全影则是指完全看不到面光源的阴影部分。

2.2.2光度立体

光度立体(Photometric Stereo)可以通过拍摄一个物体在不同光照下的多幅图像来恢复物体的形状。

2.2.3高动态范围图像

因为:真实世界的亮度范围要远远超过相机的处理能力。

解决高动态范围成像(High Dynamic Range Imaging,简称 HRD或HDRI)用来实现比普通图像具有更大曝光范围,即更大明暗差别的一种技术。

高动态范围成像

  1. 目的:正确表示真实世界中从太阳光直射最亮到最暗的阴影这样大的亮度范围。

​ 即相机能够拍摄出的明暗层次更多,能够更加客观地表示真实世界。

  1. 方法:基于硬件/软件方法
  • 基于硬件的方法:通过特殊设计的设备直接获取高动态范围图像。

    • 优点:所成的像直接就是高动态范围图像,不需要后续的处理
    • 缺点:成本高,硬件改造难度大。
  • 基于软件的方法:通过不同曝光时间拍摄同一场景的多幅图像,通过所拍摄的多幅图像生成高动态范围图像

  1. 灰度图像进行处理:基于相机响应函数(Camera Response Function,CRF)的辐照度重建方法对场景拍摄多幅曝光时间不同的图像,利用多幅曝光时间不同的图像信息计算相机的响应函数,通过响应函数逆运算得到场景的相对辐照度,用以合成高动态范围图像。

基于相机响应函数的辐照度重建方法

输入:同一场景的采用不同曝光时间拍摄的多幅图像。

​ 拍摄时相机的位置固定,场景是静态场景,且拍摄过程足够快,从而可以忽略拍摄过程中场景的亮度变化。

  1. 彩色图像的处理:两种方法

方法一:分别对R、G、B三个颜色通道计算相机响应函数,求出各通道对应的相对辐照度,最后调节比例参数进行白平衡处理

方nm法二:将RGB图像转换至HSV空间,恢复V通道的高动态范围数据。

得到场景的高~动态范围图像后,如要在普通显示屏上显示或者打印,需要进行色调映射(Tone Mapping),将高动态范围图像映射为低动态范围图像。

色调映射提出原因:色调映射是摄影学的专业术语。

因为相片所能呈现的亮度域有限,则可以根据所拍摄场景内的整体亮度来控制一个合适的亮度域。这样既能保证细节不丢失,也可以使照片不失真。

色调映射过程:根据当前的场景推算出场景的平均亮度,然后再根据这个平均亮度选取一个合适的亮度域,再将整个场景映射到这个亮度域中得到映射后的结果。

​ 计算平均亮度的方法目前常用的是:对数平均(lg-average)

2.2.4 曝光融合

和高动态范围图像比较相似的技术:曝光融合

曝光融合:通过拍摄同一场景在不同曝光时间下的多幅图像来生成一幅高质量的、低动态的、可显示的图像,类似高动态范围图像经过色调调整之后的图像。

曝光融合并没有生成高动态范围图像。曝光融合基本思想

  • 为多曝光序列图像中的每个像素计算一个感知质量度量。感知质量度量可以表示期望的图像质量。例如,对比度、饱和度等。
  • 然后利用感知质量度量把多幅图像中的像素进行加权融合。感知质量较好的像素权重较大,直接得到一幅高质量的图像,不需要像高动态范围图像那样首先进行辐射标定,也不需要记录拍摄时的曝光时间。

注:采用标定相机响应曲线生成高动态图像时,是不能使用闪光灯的,因为使用闪光灯会使场景的光照发生变化,从而导致场景的亮度发生改变。

2.3颜色分析

  • 颜色是由于不同波长的光作用于视觉系统,并引起不同刺激的结果而产生的。
  • 光是由不同波段的光谱组成的,每个波段称为一个通道,各种波长的光的不同比例就形成了不同的颜色。
  • 例如,短波光能量较大时呈现 蓝色,长波光能量较大时呈现红色。
  • 颜色对于尺寸、方向、角的依赖性较小,具有较高的鲁棒性
  • 人类视觉系统对于波长为390~780 nm的光是有反应的,即这部分光对于人类来说是可见光
  • 如果光中只包含了某一波段的光,那么这种光就是纯色的(如红光、蓝光等);如果光中所包含的各个波段的光的能量分布比较均匀,那么这种光就是白光

2.3.1三基色原理

人类视网膜含有三种不同的光敏感性视色素,它们对光谱不同部位的敏感性是不同的。一束光,不管波长组合多复杂,都能被人眼分成三种基本颜色。对于视野中每个位置,三种不同的光敏感性视色素会对不同波长的光产生响应,所有可能的响应值的组合决定了人类所能感知的颜色空间。

人眼中有两种类型的细胞,锥状细胞杆状细胞

  • 锥状细胞在明亮的光线下比较活跃,对应于颜色的感知;
  • 杆状细胞在昏暗的光线下比较活跃,由于锥状体受到抑制,因此人对于颜色的感知就比较弱,看到的场景基本是灰色的。

2.3.2颜色空间

每一种颜色的表示 模型都定义了一个颜色空间,每一种颜色对应于该颜色空间中的一个点。

广泛使用的颜色空间:RGB空间、HSV空间、CMY空间、XYZ空间等。

2.3.2.1线性颜色空间和非线性颜色空间

颜色空间可以分为线性颜色空间非线性颜色空间两种

  1. 线性颜色空间:可以使用基色的线性组合来表示颜色,基色的选择就决定了颜色空间。

    例子:RGB空间

    RGB模型构成颜色表示的基础,其他颜色的表示方法可以通过对RGB模型进行变换得到。

    RGB模型是一个加色的模型,通过以不同比例混合三种基色来得到各种颜色。

    三基色的加权混合不仅反映了颜色的色度,还反映了颜色的亮度

  2. 非线性颜色空间

例子:HSV模型

  • H(Hue):色调,表示光的颜色。如:红光,绿光。

    色调是光中所包含能量最多的波长决定的。

  • S(Saturation):饱和度,表示颜色的饱和程度。如:深红、浅红。

    饱和度是由所包含能量最多的波长包含的能量与所有其他波长包含的能量之比决定的。

    这个比值越大,颜色越饱和。

    极端情况下,若光中只有红光波长部分包含能量,则该颜色的饱和度是最大的。

  • V(value/lightness):亮度,表示光线的明暗程度,是从黑到白的变化。

    亮度是对光的整体的明暗程度的度量。

注:线性颜色空间之间,以及线性颜色空间和非线性颜色空间之间可以进行变换

这些颜色空间之间没有明显的好坏之分,只能说某个颜色空间适用于某一个具体的领域。

2.3.2.2非一致性颜色空间和一致性颜色空间

注:这本书没有详细说明

MacAdam椭圆: 每一个椭圆中的颜色对于人眼来说是一样的。

使用程序来分辨两种颜色:通过计算两种颜色表示之间的距离来进行判断。

若两种颜色表示之间距离小于某一阈值,则视为同一种颜色;否则就将其视为不同的颜色。

在非一致性颜色空间中,颜色表示之间的距离并不能表示颜色之间的差异。理想情况是MacAdam椭圆都变成一样大小,这样就可以用颜色表示之间的距离来表示颜色之间的差异了

2.3.3色彩恒常

人类都有一种不因光源或者外界环境因素影响而改变对某特定物体色彩判断的心理倾向,称为色彩恒常性

由于环境(尤其特指光照环境)的变化,某一特定物体反射的光的组成会发生变化,而人类的视觉系统能够识别出这种变化并能够判断出该变化是由光照环境的变化而产生的。当光照在一定范围内变动时,人类识别机制会在这一变化范围内认为该物体表面颜色是恒定不变的。

色彩恒常算法:通过图像来去除光照的影响而得到物体的真正的颜色。

最具代表的色彩恒常理论:视网膜皮层理论(Retinal Cortex Theory,简称“Retinex理论”)。

Retinex理论认为,人类感知到的物体的色彩与物体表面的反射特性密切相关,而与进入人眼中的反射光的光谱特性关系不大。由于光照变化引起的进入人眼中反射光的光谱变化一般是平缓的,而由物体表面有变化引起的反射光的光谱变化一般比较剧烈,因此通过分辨这两种变化形式,人类的视觉系统就可以区分感受到的颜色变化是由光照引起的,还是由物体变化引起的,从而实现对于物体颜色的感知恒常。

Retinex理论用处:可以用于图像增强。

Retinex理论基本原理:从原始图像中估计出光照,从而分解出“物体表面的反射特性”,消除光照不均的影响,以改善图像的视觉效果。

2.3.4阴影去除

如果检测物体的边缘会将阴影的边缘也作为物体的边缘,这样会给视觉任务带来困难。所以阴影的检测与去除具有重要的研究意义和应用价值。

由于阴影是由光照变化引起的图像变化,因此如果能够得到与光照无关的图像,那么就可以判断原始图像中是否存在阴影,并确定阴影的位置。

检测阴影:具体应用时,可以搜索二维色度空间中的各个方向,将图像中的颜色沿着各个方向进行投影,然后选择使投影后的直方图的熵最小的方向作为温度方向来得到光照无关图像,然后对于原始图像的边缘,若在其对应的光照无关图像上不是边缘,则可以认为该边缘是由阴影引起的,从而得到阴影的检测结果。阴影检测实例:图2-26.
在这里插入图片描述
在这里插入图片描述

去除阴影:根据以下两个推断进行阴影去除

①如果阴影边界两边的两个像素具有相同的反照率,那么移除阴影后它们应该具有具有相同的颜色/灰度,即此处的梯度应该为0。

②阴影内部的像素值之间的对数往往比在阴影移除后应该保持不变,因此可以使用Retinex方法对原始图像取对数,然后求导数。此后,除舍弃小于给定阈值的导数外,还应将阴影边界处的导数也设置为零,然后通过重积分得到去除阴影后的图像。

2.4数字相机

数字相机成像原理:使用包含很多像素的光电耦合器件来成像。

当按下相机的快门开始曝光时,每个像素开始收集光子,并转换为电信号。当曝光结束时,通过每个像素收集的光子的数目决定了该像素产生的电信号的强弱。然后产生的电信号被量化为数值,如对于灰度图像,量化的数值为0-255,反映了该点的明暗程度。但是这个过程由于每个像素只能计算其接受到的光子数目,不能判断出每种颜色的光子数目,因此只能产生灰度图像。

如果想要产生彩色图像,需要使用滤镜来感应色彩信息。

最常用的滤镜:拜尔滤镜(Bayer Filter)

拜尔滤镜

将RGB滤色器排列在光点耦合器件之上所形成的马赛克彩色滤色阵列。如图2-29。

在这里插入图片描述

下面一层灰色的是感光元件,每个方块代表一个像素。

上面一层彩色的是拜耳滤镜。

由于人眼对于滤色比较敏感,因此这种滤色阵列的排列由50%是滤绿色,25%是红色,25%是蓝色,因此也称为RGBG、GEGB、RGGB。

问题:红色的滤镜只允许红光通过。这样位于红色、绿色、蓝色滤镜下的像素可以分别感受光线中红光、绿光和蓝光的强度。每个像素仅包含光谱的一部分,必须通过插值才能得到每个像素的RGB值。

可以通过最近邻、线性插值等方法来得到每个像素缺失的颜色值。

对于中心像素G如何得到其R值和B值,只需取其上下两个相邻的B值得均值作为中心像素的B值,取其左右两个相邻的R值作为中心像素的R值即可。如图2-30.>在这里插入图片描述

问题:传统相机无法再一个像素中放入三个滤镜和感光元件。即使能做到,成本太高。

改进:Foveon X3传感器

Foveon X3传感器某种程度上借鉴了彩色胶片三层染色剂的堆叠方式,从上至下排列了三层光点二极管,每层二极管分别记录蓝、绿和红色光线的强度。

相比只能测量RGB其中之一的数据,需要依靠插值计算其他色彩的拜尔阵列传感器,Foveon X3传感器理论上每个像素位置可以直接得到RGB值,色彩准确性更高。二者对比,见图2-32.

拜尔阵列传感器 Foveon X3传感器
只能测量RGB其中之一的数据,需要依靠插值计算其他色彩 理论上每个像素位置可以直接得到RGB值,色彩准确性更高,理论上不会产生摩尔纹和伪色,不需要低通滤镜而具备更高的解像力。
每一个像素点仅能记录1/3的总数据量 每个像素的位置都可以记录下完整的RGB值
缺点:高感画质差、存储速度慢、耗电量大。在某些情况下因红色光和绿色光的波长比较近而出现交叉污染的情况。

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/seasonsyy/article/details/131604567