首先下载tesseract-ocr安装包,附链接:http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe
下载完成后记住安装位置,后面要配置环境变量。简要描述配置环境变量,与Java配置环境变量类似,复制安装路径
C:Program Files(x86)Tesseract-OCR 把这个路径添加到系统变量Path里面,键入命令:tesseract -v可以查看安装版本确认是否安装成功;
此时还不能识别中文,需要下载简体中文包https://raw.githubusercontent.com/tesseract-ocr/tessdata/4.00/chi_sim.traineddata
把下载的语言包放到安装路径tessdata目录下
再次配置环境变量 新建系统变量TESSDATA_PREFIX 变量值仍为安装路径C:Program Files (x86)Tesseract-OCR
二:识别图片
选择一张图片并建立一个txt文件用于存放识别结果
进入到存放图片的目录
在命令行界面键入命令
格式: tesseract 图片名称 生成的结果文件的名称 字库
例如:tesseract test.jpg result -l chi_sim
打开result.txt即可查看识别结果