Application Example: Photo OCR

Photo OCR

Problem Description and Pipeline问题描述和流水线

机器学习的应用实例：照片OCR技术

第一一个复杂的机器学习系统是如何被组合起来的

第二机器学习流水线（machine learning pipeline）的有关概念以及在决定下一步做什么时如何分配资源

最后机器学习的诸多有意思的想法和理念其中之一是如何将机器学习应用到计算机视觉问题中第二是有关人工数据合成（artificial data synthesis）的概念

照片OCR表示照片光学字符识别（photo optical character recognition）主要解决的问题是让计算机读出照片中拍到的文字信息它有如下几个步骤

首先给定某张图片找出文字区域

然后通过得到的文字区域的矩形轮廓我们可以进行字符切分

最后在成功将字段分割为独立的字符后我们可以运行一个分类器输入这些可识别的字符然后试着识别出每一个字母

应用：盲人相机汽车导航

实际上有很多照片OCR系统会进行更为复杂的处理比如在最后会进行拼写校正 所以比如说假如你的字符分割和分类系统告诉你它识别到的字是 “C 1 e a n i n g” 那么很多拼写修正系统会告诉你这可能是单词 “Cleaning”的拼写你的字符分类算法刚才把字母 l 识别成了数字 1 那么像这样的一个系统我们把它称之为机器学习流水线（machine learning pipeline）

具体来说这幅图表示的就是照片OCR的流水线我们有一幅图像然后传给文字检测系统识别出文字以后我们将字段分割为独立的字符最后我们对单个的字母进行识别

Sliding Windows滑动窗口

照片OCR流水线中的组件是如何工作的下面介绍一种叫滑动窗(sliding windows)的分类器

为了更好地介绍图像的检测我们从一个简单一点的例子开始我们先看这个探测行人的例子等下再把我们从行人检测中得出的想法应用到文字检测中

在行人的问题中不同矩形的宽高比都是一样的但对文字检测的问题高度和宽度的比值对不同行的文字就是不同的了虽然在行人检测的问题中行人可能会与相机处于不同的距离位置因此这些矩形的高度也取决于他们离相机的距离远近但这个比值应该是一样的为了建立一个行人检测系统以下是具体步骤假如说我们把宽高比标准化到 82比36这样一个比例我们可以把这个比值进行圆整比如化为 80比40之类的但82比36也可以

接下来我们要做的就是到街上去收集一大堆正负训练样本训练一个学习算法输入这些图片 82×36维的图像块然后对 y 进行分类把图像块分成"有行人" 和"没有行人"两类

我们想来试试看在这张图片中找行人我们要做的是首先对这个图像取一小块长方形如图绿色框比如这是一个 82×36的图像块我们将这个图像块通过我们训练得到的分类器来确定这个图像块中是不是有行人然后我们滑动绿色框然后得到一个新的图像块并同样把它传入我们的分类器看看这里面有没有行人....从左到右再换行直到右下角

滑动的大小称为步长(step size) 有时也称为步幅参数(stride parameter) 每移动一个像素就是说你是用的步长或者说步幅是1 步长越小计算量越大表现得也越好

然后增大滑动框重复以上步骤但是我传递给分类器的图像都是经过压缩的82×36的图像块然后继续放大矩形框完成整个过程

接下来我们转向文字识别的例子让我们来看看对于照片 OCR 流水线中要检测出文字需要怎样的步骤

跟行人检测类似首先收集正负样本并训练出学习算法然后测试集图片中我们以这幅图片为例

运行矩形框算法最终得到的结果是左边的白色的区域表示我的文字检测系统已经发现了文字并且不同的灰度就表示分类器给出的输出结果的概率值比如有些灰色的阴影这就表示分类器似乎发现了文字但并不十分确信而比较白亮的区域则表示分类器预测这个区域有文字有比较大的概率

继续在图像中有文字的各区域都画上矩形窗所以我们还需要完成一步我们取出分类器的输出然后输入到一个被称为"展开器"(expansion operator)的东西展开器的作用就是它会取过这张图片对每一个白色的小点都扩展为一块白色的区域

我们现在可以根据右边的这张图锁定那些连接部分也就是这些连续的白色区域然后围绕着它们画个框就行了具体来讲如果我们分析这些白色区域我们可以简单地凭直觉来判断那些又高又瘦的白块并抛弃掉这个例子漏掉了一些文字但是效果还不错

流水线的第二步是字符分割同样地我们还是使用一种监督学习算法用一些正样本和一些负样本而我们要做的就是看看这些图片是不是在两个字符之间有一条分界线

训练好这个分类器以后我们就要把这个分类器应用到我们文字中我们还是通过滑动矩形窗的方式来分割文字

流水线的最后一步 是字符分类这一步根据之前你已经学到的监督学习算法将图像按字母分类等等

Getting Lots of Data and Artificial Data获取大量数据和人工数据

要想获得一个比较高效的机器学习系统其中一种最可靠的办法是选择一个低偏差的学习算法然后用一个巨大的训练集来训练它

但你从哪儿得到那么多的训练数据呢？

其实在机器学习中有一个很棒的想法叫做“人工数据合成”（artificial data synthesis）它包含两种不同的变体第一种是我们白手起家来创造新的数据第二种是我们已经有了一小部分带标签的训练集我们可以扩大这个训练集

对于之前的照片OCR流水线问题我把这些图像都视为灰度图像而不是彩色图像实际上用彩色的图像对这个问题的解决也起不了多大作用获得一个更大的训练集的方法如下

1.从文字处理软件或者网络获取字体库然后采集同一个字符的不同种字体然后将这些字符加上不同的随机背景然后应用某个模糊操作模糊的意思是让图像变形比如均匀等比例缩放或者一些旋转操作等等在完成这些操作后你就得到了这个合成后的训练集要完成这项工作还是需要仔细考虑才能得到比较真实的合成数据如果你搞得很草率的话你获得的合成数据很可能就不是那么好

2.使用你已经有的样本我们选取一个真实的样本然后你添加别的数据来扩大你的训练集比如在图像上加了一些灰色的网格或者进行人工扭曲或者人工变形这样从一个图像A 就能生成很多种新的样本同样地要把这个概念投入应用要考虑什么样的变形是合理的

3. 另一种很好的办法是我们称之为"众包" (crowd sourcing) 的办法现在已经有一些网站或者一些服务机构能让你通过网络雇一些人替你完成标记大量训练数据的工作通常都很廉价可能“亚马逊土耳其机器人”（Amazon Mechanical Turk）就是当前最流行的一个众包选择

如果你要解决某个机器学习问题通常有两件事情值得好好考虑第一是用学习曲线进行合理性检查保证使用更多的数据能有效果第二点是自己坐下来认真地想一想想要得到现有数据的 10倍数据量需要花费多少工作量有时候你会非常惊讶于你算出来的结果也许只需要几天几个星期的时间就能让你的学习算法的表现有巨大的提高

Ceiling Analysis: What Part of the Pipeline to Work on Next

为了介绍上限分析 我将继续使用之前用过的照片OCR流水线的例子在之前的课程中我讲过这些方框文字检测字符分割字符识别哪一个方框最值得你投入精力去做投入时间去改善效果

假设整个系统的估计准确率为72%

首先我们人为的将第一个模块文字检测给出全部正确结果然后传递给下两个模块字符分割字符识别整个系统准确率提高到89%

然后我们将第一个模块文字检测和第二个模块字符分割都给出标准的结果然后传递给下一个模块字符识别整个系统准确率提高到90%

最后我们还是执行最后一个模块字符识别同样也是人工给出这一模块的正确标签这样做以后我应该理所当然得到100%准确率

进行上限分析的一个好处是我们现在就知道了如果对每一个模块进行改善它们各自的上升空间是多大

所以我们可以看到如果我们拥有完美的文字检测模块那么整个系统的表现将会从准确率72%上升到89% 因此效果的增益是17% 这就意味着如果你在现有系统的基础上花费时间和精力改善文字检测模块的效果看起来这还挺值得

而相对来讲如果我们取得完美的字符分割模块那么最终系统表现只提升了1% 这便提供了一个很重要的信息这就告诉我们不管我们投入多大精力在字符分割上系统效果的潜在上升空间也都是很小很小所以通过上限分析我们知道了即使你把字符分割模块做得再好再怎么完美你的系统表现最多也只能提升1%

最后如果我们取得完美的字符识别模块那么整个系统的表现将提高10% 也是值得花时间的

一个真实的故事有两个工程师为了开发某个计算机视觉的应用系统大概花了一年半的时间就为了得到一个更好的背景移除效果事实上他们确实研究出了非常复杂的算法貌似最后还发表了一篇文章但最终他们发现所有付出的这些劳动都不能给他们研发系统的整体表现带来比较大的提升而如果要是之前他们组某个人做一下上限分析他们就会提前意识到这个问题

如果要解决某个机器学习问题最好能把问题分成多个模块然后做一下上限分析这通常是一个更可靠更好的方法来为你决定该把劲儿往哪儿使该提高哪个模块的效果这样我们就会非常确信把这个模块做好就能提高整个系统的最终表现

参考资料

https://www.coursera.org/learn/machine-learning/

斯坦福大学《Machine Learning》第11周学习笔记