私の環境:アーチのLinux
1.インストールteseract
と英語、中国語の言語パック
インストールは非常に簡単下のアーチは、パックマンは、自動的に私たちは、すべての依存関係を解決するのに役立ちます
sudo pacman -S tesseract tesseract-data-eng tesseract-data-chi_sim
2. pythonの必要なサードパーティのライブラリをインストール
sudo pip install pillow
sudo pip install pytesseract
2.コードショー
それぞれ認識中国語、英語、数字
私はコードと同じディレクトリに画像を認識し、テスト対象のIMGディレクトリ
import os
import pytesseract
from PIL import Image
BASE_DIR = os.path.dirname(__file__)
zh_img = os.path.join(BASE_DIR, "img/zh_demo.png")
en_img = os.path.join(BASE_DIR, "img/en_demo.png")
num_img = os.path.join(BASE_DIR, "img/num_demo.png")
zh = pytesseract.image_to_string(Image.open(zh_img), lang="chi_sim").replace(" ","") # 中文识别有时不是特别准确,识别结果中间有空格
en = pytesseract.image_to_string(Image.open(en_img)) # 也只有识别规矩的英文和数字了,可以用来破解低级验证码
num = pytesseract.image_to_string(Image.open(num_img))
print(zh) # 山重水覆疑无路,柳暗花明又一村
print(en) # kainhuck
print(num) # 0771-5785703