python 识别图片中的文字信息

最近朋友需要一个可以识别图片中的文字的程序,以前做过C#验证码识别的程序;

刚好最近在学习python,所以顺便用Python练练手

1.需要的环境:

    2.7或者3.4版本的python

2.需要安装pytesseract

     依赖PILtesseract-ocr

 

本地环境是Windows,下面说一下 具体步骤:

1.安装PIL:

直接使用pip 安装; pip install Pillow

2.安装tesseract-ocr:

apt-get install tesseract-ocr

3.安装pytesseract

pip install pytesseract

 

使用python 3.4安装时;pip 命令修改为pip3(都知道)

也可以在Pycharm中安装,如下图:

 

当然在安装tesseract-ocr出现错误:

 

直接baidu找安装包,下载安装即可。

继续搬砖,测试代码:

#作者微信:jialee918
from PIL import Image
import pytesseract
#上面都是导包,只需要下面这一行就能实现图片文字识别
text = pytesseract.image_to_string(Image.open('python.jpeg'))
print(text)

运行程序,竟然报错,如下:

好吧,有Bug不需要害怕继续倒腾,找到你虚拟环境(编译环境)下文件pytesseract.py:

我的在F:\Python\Project\venv37\Lib\site-packages\pytesseract目录下,打开修改一下:

意思就是刚才安装的esseract-ocr未找到,那就把我们安装的路径替换默认的路径,

如上图的代码段。

保存,继续运行

发现中文不能够识别,好继续打语言包,

至此结束,好久没码字了,真的很辛苦。

猜你喜欢

转载自blog.csdn.net/jiali765/article/details/82049162