python3调用OCR识别

可以用工具，需要下载安装tesseract-ocr，地址：https://github.com/tesseract-ocr/tesseract/wiki，找对应版本，还可以从上面找到各种.traineddata，放入tessdata文件夹。设置好环境变量，要新建TESSDATA_PREFIX，值为：D:\Program Files (x86)\Tesseract-OCR，路径是tessdata文件夹的上一层目录。

还要在pytesseract.py（文件地址如：D:\ProgramData\Anaconda3\Lib\site-packages\pytesseract）找到tesseract_cmd设置好路径。如：tesseract_cmd = 'D:/Program Files (x86)/Tesseract-OCR/tesseract.exe'。

参考：http://www.cnblogs.com/zhongtang/p/5554784.html

代码很简单：

from PIL import Image
import pytesseract
text = pytesseract.image_to_string(Image.open('denggao.jpg'),lang='chi_sim')
print(text)

不过识别率不太好。

还可以调用腾讯AI开放平台上的通用OCR识别，效果杠杠的，而且免费。参考：https://ai.qq.com/doc/ocrgeneralocr.shtml。

https://blog.csdn.net/kiramario/article/details/53781369#comments

代码：

import base64
import hashlib  
import time  
import random  
import string  
from urllib.parse import quote  
import requests  

def curlmd5(src):  
    m = hashlib.md5(src.encode('UTF-8'))
    return m.hexdigest().upper()

# 请求时间戳（秒级），用于防止请求重放（保证签名5分钟有效） 
def get_params(base64_data):
    t = time.time()
    time_stamp=str(int(t))  
    # 请求随机字符串，用于保证签名不可预测  
    nonce_str = ''.join(random.sample(string.ascii_letters + string.digits, 10))  
    # 应用标志，这里修改成自己的id和key  
    app_id = '110684xxxx'  
    app_key = 'NiYtm56TQsnIxxxx'
    params = {'app_id':app_id,  
              'image':base64_data,
              'time_stamp':time_stamp,
              'nonce_str':nonce_str,
             }
    sign_before = ''
    # 要对key排序再拼接
    for key in sorted(params):
        # 键值拼接过程value部分需要URL编码，URL编码算法用大写字母，例如%E8。quote默认大写。  
        sign_before += '{}={}&'.format(key,quote(params[key], safe=''))
    # 将应用密钥以app_key为键名，拼接到字符串sign_before末尾  
    sign_before += 'app_key={}'.format(app_key)
    # 对字符串sign_before进行MD5运算，得到接口请求签名
    sign = curlmd5(sign_before)
    params['sign'] = sign
    return params

url = "https://api.ai.qq.com/fcgi-bin/ocr/ocr_generalocr"
with open('denggao.jpg','rb') as fin:
    image_data = fin.read()
base64_data = base64.b64encode(image_data)
params = get_params(base64_data)
r = requests.post(url,data=params)
item_list = r.json()['data']['item_list']
for s in item_list:
    print(s['itemstring'])

猜你喜欢