AF 自动聚焦算法 Understanding Auto Focus

焦点 Focus

在几何光学中，焦点，是从无穷远处物体出发的光线经过光学系统后会聚的点。但这只是概念中的一个理想点，在现实世界中，焦点会存在一定的空间分布，称为弥散圆。这种非理想的焦点通常源于光学系统的像差（aberration）。

In geometrical optics, a focus, also called an image point, is the point where light rays originating from a point on the object converge. Although the focus is conceptually a point, physically the focus has a spatial extent, called the blur circle. This non-ideal focusing may be caused by aberrations of the imaging optics.

焦距 Focal length

焦距用来衡量一个光学系统会聚或发散光线的能力，常用符号f表示。焦距的倒数定义为光学系统的光学能力（optical power），符号为P=1/f，也称屈光能力（dioptric power）, 折射能力（refractive power）, 聚焦能力（focusing power）, 会聚能力（convergence power）。

正的焦距代表光线会聚，负的焦距代表光线发散。焦距越短屈光能力越强。

The focal length of an optical system is a measure of how strongly the system converges or diverges light; it is the inverse of the system's optical power. A positive focal length indicates that a system converges light, while a negative focal length indicates that the system diverges light. A system with a shorter focal length bends the rays more sharply, bringing them to a focus in a shorter distance or diverging them more quickly.

最小对焦距离 Minimum Focus Distance

所有镜头都可以对无穷远处的物体成清晰像，但对于非常靠近镜头的物体则存在一定的限制，超过限制后成像开始模糊。这个距离称为最小对焦距离（minimum focus range / distance），经常简称对焦距离（focus distance）。

下图所示的50mm单反镜头在右侧标注了对焦距离为0.45m/1.5ft，含义是镜头距离拍摄对象小于此距离时图像将会模糊。

当镜头对焦良好时，来自拍摄对象（subject）的光线刚好会聚到sensor感光面，此状态称"in focus"，如下图所示。

当聚焦良好时，图像会比较清晰（"sharp"），存在大量锐利的纹理细节。

当镜头对焦不良时称为失焦（out of focus），以拍摄人像为例，如果聚焦最清晰的区域在人的前方，则称为“front focus”。反之，如果人身后的区域聚焦最清晰，则称为"back focus"。

在正常情况下，camera的视野（Field of View, FOV）里总会有一些物体是清晰的。拍摄时要把镜头对焦到拍摄的主体（subject）上来。

多数镜头上都有调节焦距的机械结构，可以手动或者电机驱动镜片组沿光轴前后移动。镜头外表面会标注"near"和"far"两个方向，其作用如下图所示。

对于front focus情况，镜头需要旋向Far方向。相反，对于back focus情况，镜头需要旋向Near方向。至于为什么是这样需要深入了解一下透镜的成像原理。

图中

do 代表物距（distance of object）；

di 代表像距（distance of image）；

f=focal length，对于定焦镜头f是一个常数；对于变焦镜头f在一定范围内可调。

根据透镜的成像方程，无穷远处的物体（do=∞）像点位于焦点处（di=f）。

当物体向逐渐镜头靠近时，物距do逐渐变小，像距di逐渐变大，两者的关系始终满足成像方程。总的原则是，物距越大则像距越小，反之亦然。

在相机和摄像机中，通常sensor的位置是固定不动的，而镜片可以沿光轴前后移动，从而改变di。因此如果subject在更远处（front focus），则需要增大do减小di，即令镜片更加靠近sensor；反之如果subject 在更近处(back focus），则需要减小do增大di，即令镜片更加远离sensor。

front focus (too near), 镜头需要靠近sensor以聚焦于远处

图像是否"清晰（sharp）"是人的主观感受，它的物理本质是光学系统的点扩散函数（Point Spread Function，PSF）这个指标。PSF反映的是一个理想物点经过光学系统后能量的空间分布情况。为讨论方便，令光轴为z轴，成像面为xy平面。由于光的波动性本质，z轴上的一个理想点光源经过光学系统后会在像点所在的xy平面上汇聚成一个具有一定直径的光斑即艾里斑（Airy disk），其直径取决于光学系统的通光口径。这是PSF的理论极限。

当xy平面沿z轴前后移动时，距离像点越远则光斑直径越大，光能量也就越分散（spread）。

在此基础上，实际的光学系统总是不理想的，存在各种原理的像差，这些像差效应使光能量进一步扩散。

刘斯宁：Understanding the Seidel Aberrations44 赞同 · 1 评论文章

另外，由于光能量总是扩散的，所以实际的像点只是一个光能量相对集中的平均位置。当光学系统的参数（如光圈大小）发生变化时，光能量的扩散特性也会随之变化，因此焦点的位置也会发生一定程度的偏移，这个现象叫做focus shift，原理如下图所示。

由各种原因引起的光能量扩散反映在图像上就是图像变得不清晰度（unsharp），模糊（blurred），低锐度（low accutance），低对比度（low contrast）。

由于光能量扩散的原因，理想黑白线对（line-pair）经过镜头之后会出现边缘模糊。如果把方波信号看作是无穷多正弦信号的叠加，那么光学系统的作用就相当于一个空间低通滤波器，会过滤掉信号中的高频分量，只保留低频分量。

下图是测试聚焦误差的常用工具，数字0作为对焦的subject，通过数字和图案的清晰度可以判断失焦的方向和程度。

自动聚焦 Auto Focus （AF）

很多单反相机、摄影机都支持自动聚焦功能。一般而言，自动聚焦的精度往往不如手动精细调焦的准确度高，但毕竟自动聚焦使用更加方便，所以有一点误差也不是特别大的问题。

自动聚焦存在三种技术路线，即

CD，Contrast Detection, 通过比较图像对比度寻找最合适的聚焦位置
PD，Phase Detection，通过检查光线的相位关系寻找最合适的聚焦位置
DP，Dual Pixel，基于PD原理的一种技术，通过使用两种特别的像素提取聚焦位置信息

CDAF

光路特点

基于CD 原理实现的AF 技术具有一个显著的有点，就是光路结构比PDAF 简单很多。它不需要额外的光学棱镜，不需要微透镜，也不需要额外的电路构造。它用软件算法直接分析sensor 捕捉的主图像就可以判断图像是否聚焦良好。而PDAF 技术则往往需要在sensor 上设计一些特别的光学、像素、电路等构造以提供关于聚焦状态的数据。这些特别的像素通常被称为聚焦点（AF points）。CDAF 的算法也可以借用聚焦点的概念，只不过CD 算法的聚焦点是算法任意指定的，并不对应sensor 上的一些特别物理构造，因此也没有数量上的限制。

对焦原理

CDAF 对一个图像序列进行分析，找到对比度最大的一帧图，这个方法也叫做最大值法（maximum-seeking method）。

算法特点

最大值法的优缺点都很明显。其优点是仅需要考虑聚焦点附近一个小区域的像素，因此计算压力比较小，对于手持应用可以节省功耗。其缺点是需要抓拍多帧图像。如果只给一帧图像，CD 算法无从知晓当前图像是否聚焦良好，也不知道距离理想的聚焦位置还有多远，甚至不知道正确的方向是focus near还是focus far（PDAF 则刚好可以解决这些问题）。

PDAF

AF 组件

一些相机（常见于单反）会设计一个专用的光路（AF组件）用于检测聚焦状态。典型的光路由一个分光棱镜（beam splitter）和两个微透镜（microlens）组成，每个微透镜后面会有一个专用的AF sensor（包含若干个像素）用于检测像点的精确位置。如果一个物点所对应的像点落在分光棱镜的合适位置上，则像点会出现在两个AF sensor的中间位置，表示聚焦良好；否则就是too near 或者 too far，如下图所示。

一些单反相机的AF功能采用了类似的原理，但实现方式略有不同。典型的光路如下图所示。

PD sensor

上节讨论的AF 方案通常用于单反相机，以专用AF组件的方式出现。在很多其它应用中（如手机）很难有足够的空间容纳专用AF组件，所以经常会采用另外一种PD原理，即把一部分成像用的像素用不透光的挡住一半（分成左和右两种），设计成如下所示的AF相位检测像素，

这种特殊的像素以一定密度均匀地分布在像素矩阵中，为AF软件提供聚焦参考。而AF的工作原理与下节将要介绍的DP原理类似。

DPAF

Dual Pixel，每个像素分成两个子像素。对焦时，两种像素单独输出，得到A像和B像，通过A、B之间的距离判断失焦相位。正式拍摄时A、B像素合并成一体，输出一幅图像。

（a) front focus (b) in focus (c) back focus

如下图所示，当对焦不良时，A像和B像整体相似，但空间上存在若干个像素的距离。而对焦良好时，A像和B像应完全重合。

PD 与DP 讨论

PD sensor 方案使用少量像素帮助对焦，工艺更加简单，但是由于信息较少，对焦所需的时间会更久。DP sensor 方案每个像素都提供对焦信息因此速度更快，但是工艺也更加复杂，成本通常更高一些。

CDAF 对焦函数

Tenengrad 函数一种常用的图像清晰度评价函数，它使用Sobel算子提取水平和垂直方向的梯度值。经过Sobel算子处理后的图像的平均灰度值，值越大，代表图像越清晰。

图像的Tenengrad值定义为

I(x,y)是输入图像，Gx,Gy 为 Sobel算子，在另一文章中有介绍。

刘斯宁：Understanding ISP Pipeline - Demosaicking89 赞同 · 4 评论文章

暗通道

暗通道理论出自何凯明博士的2009年CVPR最佳论文"Single Image Haze Removal Using Dark Channel Prior"，主要解决了图像去雾问题。何凯明博士的研究发现，在绝大多数正常图像的非天空的局部区域里，RGB颜色通道中总会有一些颜色通道具有很小的值。

令J(x)代表一幅RGB彩色图像，则暗通道图像的数学定义是

式中c表示彩色图像的每个通道，Ω(x)表示以像素X为中心的一个窗口。

下面是一些常见场景的暗通道图像，可以看到非零像素的密度很小，称为稀疏图像。

在有雾存在的情况下，暗通道图像的密度（非零像素的数量）会显著增加。

有人提出使用图像暗通道的方法评估对焦质量。

王佳松, 孙海江, 江山, 王嘉成. 一种灰度梯度暗通道图像自动调焦方法. 液晶与显示, 2018, 33(8): 669-675.

研究发现，暗通道图像的L0范数（即非零元素的个数）与图像对焦效果存在强关联，函数的陡峭性优于暗通道的平方和算子，单峰性优于Tenengrad算子。