简介

OCR或光学字符识别是最早解决的计算机视觉任务之一，因为在某些方面它不需要深度学习。因此，即使在2012年深度学习热潮之前，就有不同的OCR实现方式，有些甚至可以追溯到1914年。

这使许多人认为OCR挑战已“解决 ”，不再是挑战。另一种类似信念是，OCR不需要深度学习，换句话说，将深度学习用于OCR实在是太大材小用了。

任何从事计算机视觉或一般机器学习的人都知道，没有什么挑战现在可以确定是已经解决的。相反，OCR仅在非常特定的用例上才能产生非常好的结果，但总的来说，它仍然被认为具有挑战性。

此外，对于某些不需要深度学习的OCR任务，确实有很好的解决方案。但是，要真正迈向更好，更通用的解决方案，深度学习将是必不可少的。

这篇OCR综述文章讲了什么

在这篇文章中，我将探讨用于解决不同OCR任务的一些策略，方法和逻辑，并将分享一些有用的方法。我将不遗余力地引用文章，数据集，存储库和其他相关博客文章。

OCR的种类

OCR有多个含义。从最一般的意义上讲，它是指从每张可能的图像中提取文本，无论是从书本中打印标准的页面，还是在其中带有涂鸦的随机图像（“ 在野外 ”）。在这两者之间，您可能会发现许多其他任务，例如阅读车牌，验证码，路牌等。
尽管每种选择都有其自身的困难，但显然“野外”任务最为困难。
在这里插入图片描述
左：打印的文本。右：野外文字

我们可以得出OCR任务的一些属性：

文字密度：在打印/书写的页面上，文字密集。但是，给定具有单个路牌的街道图像，则文本稀疏。

综述：OCR简单入门

简介

这篇OCR综述文章讲了什么

OCR的种类

猜你喜欢