Introducción al rastreador web Python3 más popular

Autor: Jack Cui Fuente:

http://cuijiahua.com/blog/2017/10/spider_tutorial_1.html

 

Introducción a los rastreadores web

 

Los rastreadores web también se denominan arañas web. Rastrea el contenido web de acuerdo con la dirección web (URL), y la dirección web (URL) es el enlace al sitio web que ingresamos en el navegador. Por ejemplo: https://www.baidu.com/, es una URL.

 

1. Revisar elementos

 

 

Ingrese la dirección URL en la barra de direcciones del navegador, haga clic con el botón derecho en la página web, busque y verifique. (Los diferentes navegadores se llaman de manera diferente, el navegador Chrome se llama inspección, el navegador Firefox se llama elemento de visualización, pero las funciones son las mismas)

 

imagen

 

Podemos ver que aparece un gran código push en el lado derecho, y estos códigos se llaman HTML. ¿Qué es HTML? Para dar un ejemplo fácil de entender: nuestros genes determinan nuestra apariencia original y el HTML devuelto por el servidor determina la apariencia original del sitio web.

 

imagen

 

¿Por qué es un look primitivo? ¡Porque la gente puede someterse a una cirugía plástica! Con el corazón roto, ¿hay algo? ¿El sitio web también puede tener cirugía plástica? ¡lata! Por favor, vea la imagen a continuación:

 

imagen

 

¿Puedo tener tanto dinero? Obviamente imposible. ¿Cómo plastifico el sitio web? Es modificando la información HTML devuelta por el servidor. Cada uno de nosotros es un cirujano plástico y podemos modificar la información de la página. Cuando hacemos clic en el elemento de revisión en la página, el navegador ubicará la ubicación HTML correspondiente para nosotros, y luego podemos cambiar la información HTML localmente.

 

Para dar otro pequeño ejemplo: todos sabemos que usar la función del navegador de recordar la contraseña convertirá la contraseña en un montón de pequeños puntos negros, que son invisibles. ¿Se puede mostrar la contraseña? Sí, ¡solo una pequeña operación en la página! Tome Taobao como ejemplo, haga clic con el botón derecho en el cuadro de entrada de contraseña y haga clic en Verificar.

 

imagen

 

 

Como puede ver, el navegador localiza automáticamente la ubicación HTML correspondiente para nosotros. Cambie el valor del atributo de contraseña en la figura siguiente por el valor del atributo de texto ( modifíquelo directamente en el código de la derecha ):

 

 

imagen

 

La contraseña que dejamos que el navegador recuerde aparece así:

 

imagen

 

¿A qué te refieres con decir tanto? El navegador obtiene información del servidor como cliente, luego analiza la información y nos la muestra. Podemos modificar la información HTML localmente para hacer un lavado de cara a la página web, pero la información que modificamos no se enviará al servidor y la información HTML almacenada por el servidor no se cambiará. Actualice la interfaz y la página volverá a su apariencia original. Esto es lo mismo que la cirugía plástica, podemos cambiar algunas cosas superficiales, pero no podemos cambiar nuestros genes.

 

2. Ejemplos sencillos

 

 

El primer paso de un rastreador web es obtener la información HTML de una página web basada en la URL. En Python3, puede usar urllib.request y solicitudes para rastrear páginas web.

 

  • La biblioteca urllib está incorporada en Python, no se requiere instalación adicional para nosotros, siempre que Python esté instalado, esta biblioteca se puede usar.

  • La biblioteca de solicitudes es una biblioteca de terceros y debemos instalarla nosotros mismos.

 

La biblioteca de solicitudes es potente y fácil de usar, por lo que este artículo utiliza la biblioteca de solicitudes para obtener la información HTML de la página web. La dirección de github de la biblioteca de solicitudes: https://github.com/requests/requests

 

 

(1) solicita la instalación

 

En cmd, use el siguiente comando para instalar solicitudes:

 

solicitudes de instalación de pip

o:

 

solicitudes de easy_install

 

 

(2) Ejemplo simple

 

El método básico de la biblioteca de solicitudes es el siguiente:

imagen

 

Dirección oficial del tutorial de chino: http://docs.python-requests.org/zh_CN/latest/user/quickstart.html

Los desarrolladores de la biblioteca de solicitudes nos proporcionaron un tutorial de chino detallado, que es muy conveniente de consultar. Este artículo no explicará todo su contenido, pero extraerá parte del contenido utilizado para el combate real.

Primero, veamos el método request.get (), que se usa para iniciar una solicitud GET al servidor, no importa si no comprende la solicitud GET. Podemos entenderlo así: get en chino significa obtener y agarrar, luego el método request.get () es obtener y tomar datos del servidor, es decir, obtener datos. Veamos un ejemplo (tomemos www.gitbook.cn como ejemplo) para profundizar nuestra comprensión:

 

# -*- coding:UTF-8 -*-
import requests

if __name__ == '__main__':
    target = 'http://gitbook.cn/'
    req = requests.get(url=target)
    print(req.text)

Uno de los parámetros que debe establecer el método request.get () es la url, porque tenemos que decirle a la solicitud GET quién es nuestro objetivo y cuya información queremos obtener. Ejecute el programa para ver los resultados:

 

imagen

 

A la izquierda está el resultado obtenido por nuestro programa, ya la derecha está la información obtenida al revisar elementos en el sitio web www.gitbook.cn. Podemos ver que hemos obtenido con éxito la información HTML de la página web. Este es el ejemplo más simple de un rastreador. Puede preguntar, acabo de rastrear la información HTML de esta página web, ¿de qué sirve? Estén atentos para el invitado, habrá descargas de novelas en línea (sitio web estático) y hermosas descargas de fondos de pantalla (sitio web dinámico) para el combate real, así que estad atentos.

 

  1.  

 

 

 

 

FIN

Enviar libro

 

 imagen Siga la
respuesta de "web front-end camp"
527252descargar 

imagen

imagen Siga la respuesta de "web front-end camp" 527681 descargar

imagen

 

Supongo que te gusta

Origin blog.csdn.net/bigzql/article/details/114867032
Recomendado
Clasificación