光学字符识别引擎 Tesseract-ocr 安装过程

安装

Tesseract-ocr 安装包有两个版本:

       稳定版

       开发版

开始安装:

选择安装位置

 
       选择自己希望安装的语言包,反正我是安装语言包不成功。

       可以到网站下载自己需要的语言包,直接放到Tesseract-OCR安装目录下的tessdata文件夹下。

比如我自己下载了下面两个语言包(简体中文和繁体中文),放到了D:\Tesseract-OCR\tessdata文件夹中。

开始菜单名称

OK,安装完成了。

环境配置

        把 Tesseract-ocr 的安装路径添加到用户变量和系统变量的path中,配置好后点击确定。

进入cmd窗口,测试环境配置成功

验证安装是否成功

        cmd窗口,进Tesseract-ocr安装路径,输入tesseract或者tesseract --list-langs命令,验证是否安装成功,若有如下信息则表示安装成功。

 

报错及解决
1. FileNotFoundError:[WinError 2]系统找不到指定文件。

解决方法:
搜索文件pytesseract.py,找到如下代码,将tesseract_cmd的值修改为全路径(tesseract文件的全路径,该文件在Tesseract-OCR下)。如下:

tesseract_cmd = 'tesseract'
改为  tesseract_cmd = 'D:\Tesseract-OCR\\tesseract'

2.pytesseract.pytesseract.TesseractError: (1, ‘Error opening data file ··· ··· Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your “tessdata” directory. Failed loading language \’chi_sim\’ Tesseract couldn\’t load any languages! Could not initialize tesseract.’)

解决办法:
1). 检查是否将TESSDATA_PREFIX添加到系统变量里,若没有,在系统变量(注意不是环境变量)里新建变量名TESSDATA_PREFIX,变量值为D:\Tesseract-OCR\(此处填你的Tesseract-OCR文件路径)。
2). 检查“Tesseract-OCR\tessdata”路径下是否存在chi_sim.traineddata(若是报错是无法加载eng则查看是否存在相应文件),若没有,下载chi_sim.traineddata文件,并放置在“Tesseract-OCR\tessdata”路径下。
3). 若还没有解决:
打开文件pytesseract.py,找到image_to_string,在上面一行指定config的参数为tessdata文件的路径,如下:

tessdata_dir_config = '--tessdata-dir "D:\Tesseract-OCR\\tessdata"'
def image_to_string(image,
                    lang=None,
                    config='',
                    nice=0,
                    boxes=False,
                    output_type=Output.STRING):

3.permission denied:[WinError 5] 拒绝访问

解决方法:
Tesseract-OCR默认安装在”C:\Program Files (x86)”下,访问该路径需要administrator权限。修改Tesseract-OCR安装路径并更改tesseract_cmd的值即可。

4.Error opening data file......Tesseract couldn't load any languages!Could not initialize tesseract.

在已经设置环境变量后仍报以上错误,看网上说重启,但重启电脑也不一定能解决问题,后面有看到可以在终端窗口设置 SET TESSDATA_PREFIX=D:\Tesseract-OCR,亲测可行,棒棒哒!

参考:

      https://blog.csdn.net/testcs_dn/article/details/78697730

      https://blog.csdn.net/weixin_42812527/article/details/81908674

      https://blog.csdn.net/weixin_42812527/article/details/81908674

发布了147 篇原创文章 · 获赞 24 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/qq_36535820/article/details/103426054