Selección del rastreador de Python 12 episodios (tecnología captcha anti-escalada)

世界上最恶心的验证码

Inserte la descripción de la imagen aquíInserte la descripción de la imagen aquíInserte la descripción de la imagen aquí

  • Bien, la concubina no puede hacerlo

1. Código de verificación de imagen

1.1 ¿Qué es un código de verificación de imagen?

  • CAPTCHA es la abreviatura de "Prueba pública de Turing completamente automatizada para diferenciar a las computadoras y los humanos", que es un programa público completamente automático que distingue si un usuario es una computadora o un humano.

1.2 El papel del código de verificación

  • Evite el descifrado malicioso de contraseñas, el deslizamiento de tickets, la irrigación de foros y el deslizamiento de páginas. Evite de forma eficaz que un pirata informático utilice un programa específico para forzar a un determinado usuario registrado a iniciar sesión continuamente. De hecho, el uso de códigos de verificación es un método común para muchos sitios web (como la banca personal en línea de China Merchants Bank, la comunidad Baidu) , utilizamos una forma relativamente sencilla de lograr esta función. Aunque iniciar sesión es un poco más problemático, esta función sigue siendo necesaria e importante para la seguridad de las contraseñas de los internautas.

1.3 Usar escenarios de códigos de verificación de imágenes en rastreadores

  • registrado
  • iniciar sesión
  • Cuando se envían solicitudes con frecuencia, el servidor muestra un código de verificación para su verificación.

1.4 Esquema de procesamiento del código de verificación de imagen

  • Entrada manual (entrada)
    Este método se limita a la situación en la que se puede utilizar de forma continua después de iniciar sesión una vez.
  • Análisis del motor de reconocimiento de imágenes
    Utilice el motor de reconocimiento óptico para procesar los datos en la imagen, actualmente se usa a menudo para la extracción de datos de imágenes, menos usado para el procesamiento de códigos de verificación
  • Plataforma de
    codificación Soluciones de código de verificación común para rastreadores

2. Motor de reconocimiento de imágenes

OCR (reconocimiento óptico de caracteres) se refiere al software que utiliza un escáner o una cámara digital para escanear datos de texto en archivos de imagen y luego analiza y procesa los archivos de imagen para reconocer y obtener automáticamente información de texto e información de diseño.

2.1 ¿Qué es el tesseract?

  • Tesseract, un motor de OCR de código abierto desarrollado por HP Labs y mantenido por Google, se caracteriza por su soporte de código abierto, gratuito, multilenguaje y multiplataforma.
  • Dirección del proyecto: https://github.com/tesseract-ocr/tesseract

2.2 Instalación del entorno del motor de reconocimiento de imágenes

1 Instalación del motor

  • Ejecute comandos directamente en el entorno mac
brew install --with-training-tools tesseract
  • La instalación en el entorno de Windows
    se puede instalar a través del paquete de instalación exe, y la dirección de descarga se puede encontrar en la wiki del proyecto GitHub. Una vez completada la instalación, recuerde agregar el directorio del archivo ejecutable Tesseract a la RUTA para facilitar las llamadas posteriores.

  • Instalación en entorno linux

sudo apt-get install tesseract-ocr

2 instalación de la biblioteca de Python

# PIL用于打开图片文件
pip/pip3 install pillow

# pytesseract模块用于从图片中解析数据
pip/pip3 install pytesseract

2.3 Uso del motor de reconocimiento de imágenes

  • Los datos en el archivo de imagen abierto se pueden extraer en datos de cadena a través del método image_to_string del módulo pytesseract. El método específico es el siguiente
from PIL import Image
import pytesseract

im = Image.open()

result = pytesseract.image_to_string(im)

print(result)

2.4 Ampliación del uso del motor de reconocimiento de imágenes

    微软Azure 图像识别:https://azure.microsoft.com/zh-cn/services/cognitive-services/computer-vision/
    有道智云文字识别:http://aidemo.youdao.com/ocrdemo
    阿里云图文识别:https://www.aliyun.com/product/cdi/
    腾讯OCR文字识别:https://cloud.tencent.com/product/ocr

3. Plataforma de codificación

3.1 Uso de la plataforma de codificación

Muchos sitios web ahora usan códigos de verificación para evitar el rastreo, por lo que para obtener mejor los datos, debe comprender cómo usar los códigos de verificación en el rastreador de la plataforma de codificación de códigos.

3.2 Plataformas de codificación comunes

  1. 超级鹰http://www.chaojiying.com/api.html

  2. 图鉴http://www.ttshitu.com/docs/index.html

    Capaz de resolver el reconocimiento del código de verificación universal

3.3 El uso de la codificación en la nube

Tomemos como ejemplo la codificación en la nube para comprender cómo utilizar la plataforma de codificación.

4. Tipos comunes de códigos de verificación

4.1 La dirección URL permanece sin cambios y el código de verificación permanece sin cambios

Este es un tipo muy simple del código de verificación, el correspondiente solo necesita obtener la dirección del código de verificación, para luego solicitarlo e identificarlo a través de la plataforma de codificación.

4.2 La dirección URL permanece sin cambios, el código de verificación cambia

Este tipo de código de verificación es un tipo más común. Para este tipo de código de verificación, debe pensar en lo siguiente:

Durante el proceso de inicio de sesión, asumiendo que el código de verificación que ingresé es correcto, ¿cómo determina el servidor de la otra parte que el código de verificación que ingresé es el código de verificación que se muestra en mi pantalla, en lugar de otros códigos de verificación?

Al obtener una página web, solicitar un código de verificación y al enviar un código de verificación, el servidor de la otra parte debe haber pasado algún método para verificar que el código de verificación que obtuve antes y el código de verificación que envié por última vez son el mismo código de verificación, entonces, ¿qué es este método?

Obviamente, se logra a través de cookies, por lo tanto, en la página de solicitud, solicite el código de verificación y envíe el código de verificación, debe garantizar la consistencia de la cookie.Puede usar request.session para resolver este problema.

Supongo que te gusta

Origin blog.csdn.net/weixin_38640052/article/details/108310602
Recomendado
Clasificación