Tesseract-验证码识别
Tesseract是一个OCR库,他通过训练识别任何字体
安装
windows系统安装:
网址:
https://digi.bib.uni-mannheim.de/tesseract/
https://github.com/tesseract-ocr/
Linux安装
sudo apt install tesseract-orc
Mac安装
brew install tesseract
windows需要设置环境变量
- 需要把tesseract.exe 设置到path变量中
- 把训练的数据放到tessdata文件中,环境变量设置为TESSDATA_PREFIX=D:\tesseract\Tesseract-OCR\tessdata;
常用命令操作
查看帮助:tesseract –h
英文识别:tesseract a.png a
中文识别:tesseract d.png d –l chi_sim
查看可用语言:tesseract –list-langs