Cómo comenzar rápidamente con los rastreadores de Python

**

Cómo comenzar rápidamente con los rastreadores de Python

**
Requisito : Rastreo de información relacionada con la página de inicio de Baidu:
Observaciones: El
módulo utilizado por el primer rastreador es url, y estos dos módulos deben introducirse. Hay dos formas; hay otro módulo debajo, solicitud, este es un módulo que viene con Python , No es necesario descargar e instalar:

Método 1:
1. Primero descargue e instale IDLE (Python 3.8 de 64 bits) , y Anaconda Navigator recomienda usar Jupyter Notebook aquí , porque en el entorno de Anaconda Navigator, muchos de los paquetes que vienen con él no necesitan descargarse por separado, por lo que no es demasiado fácil de operar. La.

2. Suponga que necesitamos rastrear la página de inicio de Baidu: Inserte la descripción de la imagen aquí
preste atención al escribir el código, simplemente elimine la s detrás de http: http://www.baidu.com/, aquí hay una conversión, una más, la solicitud de protocolo será más Una solicitud sin s es más segura, por lo que no se puede obtener ninguna información relevante. El siguiente paso es determinar la URL: a
Inserte la descripción de la imagen aquí
veces, para evitar la transferencia de algunos caracteres en la URL, se recomienda agregar una r antes .
Inserte la descripción de la imagen aquí
El siguiente paso es enviar la solicitud, obtener la información de la respuesta, enviar un mensaje abierto a la URL y recibir las variables, y luego leer el .read () para leer la información rastreada:
Inserte la descripción de la imagen aquí
luego
imprimirla
y luego ejecutarla. , Después de la modificación de la siguiente manera: el
Inserte la descripción de la imagen aquí
código completo es el siguiente:

#方法一
import urllib.request

url=r"http://www.baidu.com/"

#发送请求.获取响应信息
reponse=request.urlopen(url).read()

print(reponse)

Si se ejecuta de nuevo, se generará el siguiente resultado:
Inserte la descripción de la imagen aquí
Método dos, el código es el siguiente:

#方法二
import urllib.request  
s=urllib.request.urlopen("http://www.baidu.com")  
print(s.read()) 

Hágalo de la siguiente manera:
Inserte la descripción de la imagen aquí
3. Comparemos las diferencias y conexiones entre el código fuente de la página:
puede ingresar directamente a la página web, ver el código fuente y puede generarlo:
Inserte la descripción de la imagen aquí
También se puede presentar en forma de código:

#查看页面源代码
import requests
head={"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"}
s = requests.get("http://www.baidu.com",headers=head)
print(s.text)

Los resultados obtenidos son los siguientes: Se encuentra
Inserte la descripción de la imagen aquí
disponible comparativamente, aquí la información de la página web se lee en binario, por lo que es el caso que el chino se muestra en binario .

4. Cómo verificar o imprimir su longitud , el código ha cambiado ligeramente, solo agregue un len:

#查看长度
import urllib.request
url=r"http://www.baidu.com/"
#发送请求.获取响应信息
reponse=request.urlopen(url).read()
print(len(reponse))

Después de la implementación , como se muestra en la figura siguiente:
Inserte la descripción de la imagen aquí
Bienvenidos amigos para comunicarse y comentar, la reimpresión debe anotarse en todas partes. ¡Gracias!

Supongo que te gusta

Origin blog.csdn.net/Louisliushahe/article/details/109673764
Recomendado
Clasificación