Tesseract-OCR简介

Tesseract-OCR 最初是由惠普（HP）实验室于 1985 年开始研发的一款 OCR 引擎，到1995 年成为最准确的 3 款 OCR 识别引擎之一，但不久后，惠普放弃了 Tesseract 的研发与维护，将其贡献给开源软件业。在 2005 年，由美国内华达州信息技术研究所获得并与 Google（谷歌）合作对 Tesseract 进行改进和优化，直至目前， Tesseract-OCR 仍是识别精度较高的识别引擎之一。源生的 Tesseract-OCR 是采用 C 语言编写的， Pytesseract 库是 Tesseract-OCR 的 PythonAPI 封装。通过下载安装 Pytesseract 库并调用相关函数，可以实现在 Python 环境中使用
Tesseract-OCR 进行 OCR 文字识别。
以下是关于Tesseract的常用网址
下载地址：https://digi.bib.uni-mannheim.de/tesseract/
官方网站：https://github.com/tesseract-ocr/tesseract
官方文档：https://github.com/tesseract-ocr/tessdoc
语言包地址：https://github.com/tesseract-ocr/tessdata

注意事项:
1.尽量不要下载dev(开发中的版本)，alpha(内部测试版,一般不向外部发布,会有很多Bug)，beta(公测版本，即针对所有用户公开的测试版本)等版本。
2.建议下载最新稳定版本（目前最新版本tesseract-ocr-w64-setup-5.3.1.20230401.exe，经过测试如果安装的是旧版本，安装时若勾选了Additional Language中的Chinese可能会报错）

安装及配置环境步骤

1、在Anaconda虚拟环境中安装pytesseract第三方库

Pytesseract 库的安装与 OpenCV 库的安装基本一致，可
直接在 Anaconda Prompt 中输入“pip install pytesseract”命令进行安装。

pip install pytesseract

安装好后，如果直接运行程序会提示错误
在这里插入图片描述
接下来我们要配置环境

2、下载tesseract-ocr安装包并安装

（1） Tesseract-OCR 的安装包可在官网或其他开源项目中获取，选择与自己电脑位数相同的版本进行下载。
在这里插入图片描述
（2）将下载好的 Tesseract-OCR 安装包双击打开，进入到安装界面，单击“Next”按钮进行下一步操作。

最新版多了一个语言选择界面。

在这里插入图片描述
（3）在“License Agreement”许可协议窗口中，单击“I Agree”按钮同意安装协议进行下一步操作。

（4）选择安装类型单击“Next”按钮进行下一步操作。

（5）在 Tesseract-OCR 中默认的识别语言是英文，如果需要识别中文或其他文字，可在“Choose Components”选择组件窗口中，找到“Additional language data（download）”附加语言数据下载，在下面的选项中找到“Chinese（Simplified）”简体中文和“Chinese（Simplified Vertical）”竖排简体中文进行勾选，单击“Next”进行下一步操作。
在这里插入图片描述
（6） Tesseract-OCR 的安装位置可选择保持默认，也可单击“Browse”自定义安装位置，在后续的环境配置操作中会需要用到该路径，需记住 Tesseract-OCR 的安装位置，单击“Next”按钮进行下一步操作。

（ 7）在“Choose Start Menu Folder”选择开始菜单文件夹的窗口中，选择保持默认，单击“Install”进行安装。
在这里插入图片描述
（ 8）等待 Tesseract-OCR 安装完成后单击“Next”按钮进行下一步，最后单击“Finish”按钮结束安装。

3、环境配置

打开计算机的高级系统设置。
在这里插入图片描述
点击环境变量，找到系统变量中的Path，将Tesseract-OCR的安装路径添加进去。

然后新建一个系统变量TESSDATA_PREFIX，变量值为tessdata路径：
C:\Program Files\Tesseract-OCR\tessdata

检验是否安装成功

打开Anaconda Prompt，激活使用的虚拟环境（输入activate 环境名），默认是在base环境下。
切换到Tesseract-OCR安装路径下
cd C:\Program Files\Tesseract-OCR
在这里插入图片描述
不然会提示“不是内部或外部命令”

输入tesseract --version

输入tesseract --list-langs

修改pytesseract.py文件（很重要！）

在Anaconda对应虚拟环境下的pytesseract库下的pytesseract.py文件中找到tesseract_cmd = ‘tesseract’，修改成
tesseract_cmd =r’C:\Program Files\Tesseract-OCR\tesseract.exe’
（将加粗部分替换成自己的安装路径）
在这里插入图片描述
最后运行程序，成功！！！

Anacoda3中成功配置Tesseract-OCR实现OCR文字识别超详细教程！！（win7、win10）

Anacoda3中成功配置Tesseract-OCR