安装
Tesseract-ocr 安装包有两个版本:
开始安装:
选择安装位置
选择自己希望安装的语言包,反正我是安装语言包不成功。
可以到网站下载自己需要的语言包,直接放到Tesseract-OCR安装目录下的tessdata文件夹下。
比如我自己下载了下面两个语言包(简体中文和繁体中文),放到了D:\Tesseract-OCR\tessdata文件夹中。
开始菜单名称
OK,安装完成了。
环境配置
把 Tesseract-ocr 的安装路径添加到用户变量和系统变量的path中,配置好后点击确定。
进入cmd窗口,测试环境配置成功
验证安装是否成功
cmd窗口,进Tesseract-ocr安装路径,输入tesseract或者tesseract --list-langs命令,验证是否安装成功,若有如下信息则表示安装成功。
报错及解决
1. FileNotFoundError:[WinError 2]系统找不到指定文件。
解决方法:
搜索文件pytesseract.py,找到如下代码,将tesseract_cmd的值修改为全路径(tesseract文件的全路径,该文件在Tesseract-OCR下)。如下:
tesseract_cmd = 'tesseract'
改为 tesseract_cmd = 'D:\Tesseract-OCR\\tesseract'
2.pytesseract.pytesseract.TesseractError: (1, ‘Error opening data file ··· ··· Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your “tessdata” directory. Failed loading language \’chi_sim\’ Tesseract couldn\’t load any languages! Could not initialize tesseract.’)
解决办法:
1). 检查是否将TESSDATA_PREFIX添加到系统变量里,若没有,在系统变量(注意不是环境变量)里新建变量名TESSDATA_PREFIX,变量值为D:\Tesseract-OCR\(此处填你的Tesseract-OCR文件路径)。
2). 检查“Tesseract-OCR\tessdata”路径下是否存在chi_sim.traineddata(若是报错是无法加载eng则查看是否存在相应文件),若没有,下载chi_sim.traineddata文件,并放置在“Tesseract-OCR\tessdata”路径下。
3). 若还没有解决:
打开文件pytesseract.py,找到image_to_string,在上面一行指定config的参数为tessdata文件的路径,如下:
tessdata_dir_config = '--tessdata-dir "D:\Tesseract-OCR\\tessdata"'
def image_to_string(image,
lang=None,
config='',
nice=0,
boxes=False,
output_type=Output.STRING):
3.permission denied:[WinError 5] 拒绝访问
解决方法:
Tesseract-OCR默认安装在”C:\Program Files (x86)”下,访问该路径需要administrator权限。修改Tesseract-OCR安装路径并更改tesseract_cmd的值即可。
4.Error opening data file......Tesseract couldn't load any languages!Could not initialize tesseract.
在已经设置环境变量后仍报以上错误,看网上说重启,但重启电脑也不一定能解决问题,后面有看到可以在终端窗口设置 SET TESSDATA_PREFIX=D:\Tesseract-OCR,亲测可行,棒棒哒!
参考:
https://blog.csdn.net/testcs_dn/article/details/78697730
https://blog.csdn.net/weixin_42812527/article/details/81908674
https://blog.csdn.net/weixin_42812527/article/details/81908674