下载tesseract之后如果要识别中文,需要在安装时勾选chi_sim的语言包,但是因为墙的关系,往往下载失败,失败的时候可以看到下载路径,找到相应的文件包。
例如我下的是3.02版本,记录了文件路径:
tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.equ.tar.gz
tesseract-ocr-3.02.chi_tra.tar.gz
tesseract-ocr-3.02.chi_sim.tar.gz
如果没有vpn,可以使用谷歌助手就可以了,下载慢一点,但是可以用。
下载完解压后放到tessdata目录就可以了。