python使用tesseract-ocr完成验证码识别

一、 tesseract-ocr

  1.    C++编写,最开始由hp编写,后来束之高阁,最后决定贡献给google开源。

     源码:https://github.com/tesseract-ocr/tesseract

      2.  没找到官方exe下载,非官方下载地址:http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-3.05.00dev.exe 

      3.  安装&配置

        win10安装,64位系统安装:没装在默认路径,安装在D:\Tesseract-ocr\

  •         注意64位系统安装要修改默认地址,C:\Program Files 32位系统默认:C:\Program Files (x86)
  •         配置环境变量:编辑path,添加D:\Tesseract-ocr\,新建系统变量:TESSDATA_PREFIX,值:D:\Tesseract-ocr\
  •         查看tesseract-ocr 是否安装成功:tesseract -v ,失败的原因多数是因为环境变量配置的问题   

       4.  安装pytesseract:pip install pytesteract,很多参考资料都需要安装pillow,安装pytesseract后发现pillow已安装。无需再装

           另外,有篇文章把不同os下的安装总结了,资料:https://blog.csdn.net/blogliang/article/details/78185011?utm_source=blogxgwz0

           注意 windows 64位OS引用image等库时 需要写成 from PIL import image,32位os直接写import image

       5.  图片识别时还用到pylab: pylab 模块是一款由python提供的可以绘制二维,三维数据的工具模块,其中包括了绘图软件包 matplotlib,其可以生成 matab绘图库的图像。但是在我们安装了python后,缺省状态下并不包含pylab模块,所以我们要先安装pylab模块。

           安装命令:pip install matplotlib

           

   

猜你喜欢

转载自blog.csdn.net/sunny_happy08/article/details/83415753