综述:OCR简单入门

简介

OCR或光学字符识别是最早解决的计算机视觉任务之一,因为在某些方面它不需要深度学习。因此,即使在2012年深度学习热潮之前,就有不同的OCR实现方式,有些甚至可以追溯到1914年。

这使许多人认为OCR挑战已“解决 ”,不再是挑战。另一种类似信念是,OCR不需要深度学习,换句话说,将深度学习用于OCR实在是太大材小用了。

任何从事计算机视觉或一般机器学习的人都知道,没有什么挑战现在可以确定是已经解决的。相反,OCR仅在非常特定的用例上才能产生非常好的结果,但总的来说,它仍然被认为具有挑战性。

此外,对于某些不需要深度学习的OCR任务,确实有很好的解决方案。但是,要真正迈向更好,更通用的解决方案,深度学习将是必不可少的。

这篇OCR综述文章讲了什么

在这篇文章中,我将探讨用于解决不同OCR任务的一些策略,方法和逻辑,并将分享一些有用的方法。我将不遗余力地引用文章,数据集,存储库和其他相关博客文章。

OCR的种类

OCR有多个含义。从最一般的意义上讲,它是指从每张可能的图像中提取文本,无论是从书本中打印标准的页面,还是在其中带有涂鸦的随机图像(“ 在野外 ”)。在这两者之间,您可能会发现许多其他任务,例如阅读车牌,验证码,路牌等。
尽管每种选择都有其自身的困难,但显然“野外”任务最为困难。
在这里插入图片描述
左:打印的文本。右:野外文字

我们可以得出OCR任务的一些属性:

  • 文字密度:在打印/书写的页面上,文字密集。但是,给定具有单个路牌的街道图像,则文本稀疏。

猜你喜欢

转载自blog.csdn.net/MrCharles/article/details/103590189
OCR