【学习笔记】计算机视觉与深度学习(3.卷积与图像去噪/边缘提取/纹理表示)

同系列往期笔记：
【学习笔记】计算机视觉与深度学习(1.线性分类器)
【学习笔记】计算机视觉与深度学习(2.全连接神经网络)

1 卷积

在这里插入图片描述
噪声点：该点的像素和周围像素点的差异很大，如图中左图的253。
通过以该点为中心的9个点的像素值取均值来替代该点原本的像素值。

加权的权值 $\frac{1}{9}$ ，我们通常存储在一个上面这样的模板当中，我们称这个模板为卷积核，也称滤波核。
在这里插入图片描述
下面的蓝色是输入的图像，上面的绿色是卷积后得到的输出图像。每一个像素点都有一个卷积核，通过卷积核得到输出的像素值。

令 $F$ 为图像， $H$ 为卷积核， $F$ 与 $H$ 的卷积即为 $R = F * H$ 。
$R_{ij}=\displaystyle\sum\limits_{u,v} H_{i-u,j-v}F_{u,v}$

进行卷积操作前，我们要先对卷积核进行180°翻转。不过通常我们使用卷积时，卷积核都是对称的，所以后续不会强调翻转操作。

公式略抽象，举例说明。令：
$\begin{bmatrix} a_{0,0} & a_{0,1} & a_{0,2} \\ a_{1,0} & a_{1,1} & a_{1,2} \\ a_{2,0} & a_{2,1} & a_{2,2} \end{bmatrix} \ \ \ H= \begin{bmatrix} b_{-1,-1} & b_{-1,0} & b_{-1,1} \\ b_{0,-1} & b_{0,0} & b_{0,1} \\ b_{1,-1} & b_{1,0} & b_{1,1} \end{bmatrix}$
卷积后可以得到：

$\begin{aligned} R_{ij}&=a_{0,0}b_{1,1}+a_{0,1}b_{1,0}+a_{0,2}b_{1,-1} \\ &+a_{1,0}b_{0,1}+a_{1,1}b_{0,0}+a_{1,2}b_{0,-1} \\ &+a_{2,0}b_{-1,1}+a_{2,1}b_{-1,0}+a_{2,2}b_{-1,-1} \end{aligned}$

综上，通过这个公式，我们就可以使用 $H$ 将 $F$ 卷积到 $R$ 域上去。

卷积示例

在这里插入图片描述

在这里插入图片描述

锐化原理见下图

更好地理解卷积所起到的滤波器的效果，可以参考这个网站：
Image-Kernels

卷积的性质

令 $f_i$ 为卷积前的图像， $filter(f_i)$ 为卷积后的图像， $shift(f_i)$ 为平移后的图像。
①叠加性
$filter(f_1+f_2)=filter(f_1)+filter(f_2)$
②平移不变性（平移以后卷积和卷积以后平移结果不变）
$filter(shift(f_1))=shift(filter(f_1))$

2 边界填充

在这里插入图片描述
求边界位置的卷积时可以发现我们缺少像素信息，于是我们需要在周围补上一些像素。

有多种填充方式：
①常数填充（最常用，如zero padding)

②拉伸（把边界的值填到边界）
③镜像（把原图边界作为对称面，根据原图数据对称填充）
在这里插入图片描述

3 高斯卷积核

平均卷积核存在的问题

在这里插入图片描述
会发现，卷积后的图像产生了一些水平和竖直方向的条状，称为振铃。

解决方法：根据邻域像素与中心的远近程度分配权重。
在这里插入图片描述
$G_{\sigma}=\frac{1}{2\pi \sigma^2}e^{-\frac{(x^2+y^2)}{2\sigma^2}}$

生成步骤

确定卷积核的尺寸，比如 $5\times 5$ ；
设置高斯函数的标准差，比如 $\sigma =1$ ；
计算卷积核各个位置的权重值；
对权重值进行归一化（使所有权值相加为 $1$ ， $\frac{G_{\sigma}(x,y)}{\sum G_{\sigma}(x,y)}$ ）

如何设置下述参数

卷积核的尺寸
高斯函数的标准差

方差变化

在这里插入图片描述
标准差小→信号集中→中间值大→不平滑
方差越大，平滑效果越明显。

在这里插入图片描述
方差相同，则归一化前对应格子权值相同。归一化时每个小格的权值受到总格数的影响，导致格数多的归一化后权值小，平滑能力强；格数少的归一化后权值大，平滑能力弱。
模板尺寸越大，平滑能力越强。

总结

大方差或者大尺寸卷积核平滑能力强；
小方差或者小尺寸卷积核平滑能力弱；
经验法则：将卷积核的半窗宽度设置为 $3\sigma$ ，最终卷积模板尺寸为 $2\times 3\sigma + 1$ 。

平均卷积核vs高斯卷积核

在这里插入图片描述
可以看出，高斯卷积核有效去除了振铃的效果。

高斯卷积核结论

去除图像中的“高频”部分（低通滤波器）
两个高斯卷积核卷积得到的还是高斯卷积核
①使用多次小方差卷积核连续卷积，可以得到与大方差卷积核相同的结果
②使用标准差为 $\sigma$ 的高斯核进行两次卷积与使用标准差为 $\sqrt{2}\sigma$ 的高斯核进行一次卷积相同。
可分离（可分解为两个一维高斯的乘积）

卷积操作运算量

问用尺寸为 $m\times m$ 的卷积核卷积一个尺寸为 $n\times n$ 的图像，其计算复杂度是多少？
答 $O(m^2n^2)$ 。

此处鲁鹏老师引用的例子我没有太懂，希望有看懂的朋友指教：
例子中第一种计算方法 $\sigma=1$ ，一次运算是 $O(49n^2)$ ，要计算两次；第二种计算方法是 $\sigma=\sqrt{2}$ ，一次运算是 $O(81n^2)$ ，只计算一次。从时间复杂度的角度来看，两种计算方法都是 $n^2$ 级别的，那么应当比较常数。如果讨论每次计算的时间复杂度，那 $\sigma=1$ 的确每一次计算需要的时间复杂度小，但从实现最终目的的角度来看，这个例子里使用 $\sigma=\sqrt{2}$ 应该是更加理想的？

问如果核可分离呢？
答 $O(m^2n)$ 。

小结

高斯卷积核可以有效抑制噪声（振铃）、实现图像平滑，通过分解卷积核可以降低计算复杂度。

4 图像噪声

椒盐噪声：黑色像素和白色像素随机出现。
在这里插入图片描述
脉冲噪声：白色像素随机出现。

高斯噪声：噪声强度变化服从高斯分布（正态分布）

在这里插入图片描述

高斯噪声

在这里插入图片描述
$\hat{f}(x,y)=f(x,y)+\eta(x,y)$

其中 $f (x, y)$ 为理想图像， $\eta(x,y)$ 为随机噪声，有 $\eta(x,y)\sim\mathcal{N}(\mu,\sigma)$ ，通常 $\mu=0$ ， $\sigma$ 很小。

取其中的一行画出：
在这里插入图片描述

高斯去噪

在这里插入图片描述
横轴是高斯噪声中的 $\sigma$ ，纵轴是使用的高斯卷积核中的 $\sigma$ ，不难看出，高斯噪声中的 $\sigma$ 越大，使用的去噪的高斯卷积核中的 $\sigma$ 就越大。

高斯去噪处理椒盐噪声/脉冲噪声

在这里插入图片描述
发现高斯去噪不能很好地解决图像中的随机黑白像素点。

中值滤波

在这里插入图片描述

总结

椒盐噪声与脉冲噪声应当使用中值滤波去噪；
高斯噪声应当使用高斯卷积核去噪。

5 边缘提取

边缘：图像中亮度明显而急剧变化的点

为什么要研究边缘？

编码图像中的语义与形状信息
相对于像素表示，边缘表示显然更加紧凑

5.1 边缘的种类

在这里插入图片描述
表面法向不连续：两个交界面的法方向不同
深度不连续：瓶身的两条侧线，实际不存在，但把物体分成了能否在图像中被表示的两个的部分
表面颜色不连续：边界两侧的颜色有突变
光照不连续：出现遮挡等情况导致相同的光照下出现的光强差异

不同的识别任务关注的边缘种类不同。如判别当前图像表征的物体，则表面颜色不连续的边界是没有用的；判别这个瓶子里装的是什么，则表面颜色不连续的边界是有用的。

5.2 边缘检测

在这里插入图片描述

图像求导

2D函数 $f (x, y)$ 的偏导为：
$\frac{\partial f(x,y)}{\partial x}=\displaystyle\lim\limits_{\varepsilon\rightarrow 0}\frac{f(x+\varepsilon,y)-f(x,y)}{\varepsilon}$
图像求导公式：
$\frac{\partial f(x,y)}{\partial x}\approx \frac{f(x+1,y)-f(x,y)}{1}$
通过这个公式得到以下两种卷积核：
在这里插入图片描述
使用这两个卷积核对图像进行卷积即可实现对 $x, y$ 的偏导。

如图，左边是对 $x$ 求导得到的边界图，得到竖直方向的边界；右边是对 $y$ 求导得到的边界图，得到水平方向的边界。之所以是 $x$ 对应竖直、 $y$ 对应水平，是因为我们通过对 $x$ 求导得到的是水平方向的像素值差异，将水平方向差异分开的只能是竖直方向的边界，对 $y$ 求导同理。

5.3 图像梯度

在这里插入图片描述
可得梯度方向：
$\theta=\tan^{-1}(\frac{\partial f}{\partial x} / \frac{\partial f}{\partial y})$
可得梯度的模：
$|\nabla f|=\sqrt{(\frac{\partial f}{\partial x})^2+(\frac{\partial f}{\partial y})^2}$
梯度的模值越大，说明这个点所在的边是边界的可能性越大。

在这里插入图片描述
使用模值的效果很好，所以我们通常使用梯度的模值来反应图像的边缘信息。

噪声的影响

噪声图像的某一行或列的灰度值随位置变换得情况。
在这里插入图片描述
看似平滑的位置却有微小波动。我们期待这些位置的导数为0，但是当我们求导时却得到：

此时无法确定边缘位置，因此应当先使曲线平滑。这个是每个点都有噪声，是高斯噪声，因此我们要做高斯平滑。
在这里插入图片描述
微分是卷积，而卷积具有结合性：
$\frac{d}{dx}(f*g)=f*\frac{d}{dx}g$

我们通过变换后，仅需要一次卷积计科完成求导。

这个就被称为高斯偏导模板。

高斯偏导模板的方差变化为图像处理的影响：

通过图像可以看出，可以通过调节方差来关注不同的细节。方差较小时，我们关注细粒度的边缘细节；方差较大时，我们关注粗粒度的边缘细节。