Documento de inspección de Tang Yudi OCR

Detección de bordes
Obtener contorno
Transformación de perspectiva
reconocimiento ocr

Este artículo es principalmente para aprender las herramientas y los pasos de Tang Yudi OCR para detectar imágenes.

Detección de bordes

Lea la imagen (copia de seguridad) y calcule la proporción de la imagen, y cambie el tamaño de la imagen original de acuerdo con una cierta proporción.

image = cv2.imread(args["image"])
#坐标也会相同变化
ratio = image.shape[0] / 500.0
orig = image.copy()


image = resize(orig, height = 500)

Operaciones de preprocesamiento comunes, imágenes en color se convierten en imágenes en escala de grises, operaciones de filtrado (gaussiano), detección de bordes (astuta)

gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
gray = cv2.GaussianBlur(gray, (5, 5), 0)
edged = cv2.Canny(gray, 75, 200)

Obtener contorno

Dibuje el contorno, ordene los contornos de acuerdo con el tamaño del área y encuentre los primeros cinco contornos que necesita

cnts, hierarchy= cv2.findContours(edged.copy(), cv2.RETR_LIST, cv2.CHAIN_APPROX_SIMPLE)
cnts = sorted(cnts, key = cv2.contourArea, reverse = True)[:5]

Encuentra contornos con formas regulares

for c in cnts:
	# 计算轮廓近似
	peri = cv2.arcLength(c, True)
	# C表示输入的点集
	# epsilon表示从原始轮廓到近似轮廓的最大距离，它是一个准确度参数
	# True表示封闭的
	approx = cv2.approxPolyDP(c, 0.02 * peri, True)

	# 4个点的时候就拿出来
	if len(approx) == 4:
		screenCnt = approx
		break

El llamado contorno con una forma regular aquí debe tener 4 vértices, no necesariamente un rectángulo.
cv2.arcLength (c, True) solicita la circunferencia del contorno
cv2.approxPolyDP (c, 0.02 * peri, True) llena el contorno completamente de acuerdo con el algoritmo, 0.02 * peri es la precisión

Coloque el contorno adquirido en la imagen original (la imagen original ha sido cambiada)

cv2.drawContours(image, [screenCnt], -1, (0, 255, 0), 2)

Transformación de perspectiva

Enderece la imagen para que se convierta en un rectángulo regular, el segundo parámetro amplía los puntos de coordenadas del contorno transformado al tamaño original

warped = four_point_transform(orig, screenCnt.reshape(4, 2) * ratio)

El código específico para la transformación de perspectiva es el siguiente

def four_point_transform(image,pts):
    rect = order_points(pts)
    (tl,tr,br,bl) = rect

    # 计算输入的w和h值
    widthA = np.sqrt(((br[0] - bl[0]) ** 2) + ((br[1] - bl[1]) ** 2))
    widthB = np.sqrt(((tr[0] - tl[0]) ** 2) + ((tr[1] - tl[1]) ** 2))
    maxWidth = max(int(widthA), int(widthB))

    heightA = np.sqrt(((tr[0] - br[0]) ** 2) + ((tr[1] - br[1]) ** 2))
    heightB = np.sqrt(((tl[0] - bl[0]) ** 2) + ((tl[1] - bl[1]) ** 2))
    maxHeight = max(int(heightA), int(heightB))

    # 变换后对应坐标位置
    dst = np.array([
        [0, 0],
        [maxWidth - 1, 0],
        [maxWidth - 1, maxHeight - 1],
        [0, maxHeight - 1]], dtype="float32")
    # 计算变换矩阵
    M = cv2.getPerspectiveTransform(rect, dst)
    warped = cv2.warpPerspective(image, M, (maxWidth, maxHeight))

    # 返回变换后结果
    return warped

Primero encuentre la distancia euclidiana de la línea de coordenadas del contorno, tome la longitud y el ancho máximos como un estándar de rectángulo y luego encuentre la matriz de transformación M para transformar el cuadrilátero original en el marco estándar rectangular.

Vuelva a convertir la escala de grises de la imagen transformada en perspectiva, realice un procesamiento binario y guárdelo localmente para que la herramienta OCR lo reconozca

warped = cv2.cvtColor(warped, cv2.COLOR_BGR2GRAY)
ref = cv2.threshold(warped, 100, 255, cv2.THRESH_BINARY)[1]
cv2.imwrite('scan.jpg', ref)

En resumen, la primera conversión de escala de grises + filtrado + detección de bordes es encontrar el contorno, para ubicar los puntos de coordenadas, y la segunda conversión de escala de grises + procesamiento binario es obtener una imagen de contraste más nítida, lo cual es conveniente para la herramienta ocr. reconocer.

reconocimiento ocr

# https://digi.bib.uni-mannheim.de/tesseract/
# 配置环境变量如E:\Program Files (x86)\Tesseract-OCR
# tesseract -v进行测试
# tesseract XXX.png 得到结果 
# pip install pytesseract
# anaconda lib site-packges pytesseract pytesseract.py
# tesseract_cmd 修改为绝对路径即可
from PIL import Image
import pytesseract
import cv2
import os

preprocess = 'blur' #thresh

image = cv2.imread('scan.jpg')
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

if preprocess == "thresh":
    gray = cv2.threshold(gray, 0, 255,cv2.THRESH_BINARY | cv2.THRESH_OTSU)[1]

if preprocess == "blur":
    gray = cv2.medianBlur(gray, 3)
    
filename = "{}.png".format(os.getpid())
cv2.imwrite(filename, gray)
    
text = pytesseract.image_to_string(Image.open(filename))
print(text)
os.remove(filename)

cv2.imshow("Image", image)
cv2.imshow("Output", gray)
cv2.waitKey(0)

Realice un filtrado medio en la imagen para filtrar el ruido y ocr imprimirá el resultado del reconocimiento en la consola.

Imagen de detección Tang Yudi OCR

Documento de inspección de Tang Yudi OCR

Detección de bordes

Obtener contorno

Transformación de perspectiva

reconocimiento ocr

Supongo que te gusta