使用 Tesseract 和 OpenCV 基于深度学习的 OCR 文本识别

  在本文中,我们将学习基于深度学习的 OCR 以及如何使用名为 Tesseract 和 OpenCV 的开源工具识别图像中的文本。从图像中提取文本的方法称为光学字符识别(OCR)或有时称为文本识别。

 Tesseract 是由惠普实验室开发的专有软件。2005年,它由惠普与内华达大学拉斯维加斯分校合作开源。自 2006 年以来,它一直由 Google 和许多开源贡献者积极开发。

当 Tesseract 开始支持许多图像格式并逐渐添加许多脚本(语言)时,Tesseract 在 3.x 版本中变得成熟。Tesseract 3.x 基于传统的计算机视觉算法。在过去的几年里,基于深度学习的方法在计算机视觉的许多领域的准确性方面已经远远超过了传统的机器学习技术。手写识别就是突出的例子之一。因此,Tesseract 拥有基于深度学习的识别引擎只是时间问题。

在版本 4 中,Tesseract 实现了基于长短期记忆 (LSTM) 的识别引擎。LSTM 是一种循环神经网络 (RNN)。

初学者注意:为了识别包含单个字符的图像,我们通常使用卷积神经网络(CNN)。任意长度的文本是一个字符序列,此类问题可以使用 RNN 来解决,LSTM 是 RNN 的一种流行形式。

Tesseract 版本 4 还具有 Tesseract 3 的旧版 OCR 引擎,但 LSTM 引擎是默认引擎,我们在本文中专门使用它。

Tesseract 库附带了一

猜你喜欢

转载自blog.csdn.net/tianqiquan/article/details/133281209