¡Se recomienda recopilar 9 ejemplos introductorios del rastreador de Python! !

Llevé a mis amigos a aprender sobre los rastreadores de Python y preparé algunos ejemplos introductorios simples para compartir con ustedes.

Principales puntos de conocimiento involucrados:

1.Cómo interactúa la web

2. Aplicación de las funciones de obtención y publicación de la biblioteca de solicitudes.

3.Funciones y atributos relacionados del objeto de respuesta.

4. Abra y guarde archivos de Python.

Los comentarios se proporcionan en el código y se pueden ejecutar directamente Cómo instalar la biblioteca de solicitudes (los amigos que hayan instalado Python pueden consultarla directamente. De lo contrario, se recomienda instalar el entorno Python primero)

Los usuarios de Windows y los usuarios de Linux son casi iguales: abra cmd e ingrese el siguiente comando. Si el entorno Python está en el directorio de la unidad C, le indicará que los permisos son insuficientes. Simplemente ejecute la ventana cmd en modo administrador.

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests  

Similar para usuarios de Linux (ubantu como ejemplo): si los permisos no son suficientes, simplemente agregue sudo antes del comando.

sudo pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests  

1. Rastree potentes páginas BD e imprima información de la página

# 第一个爬虫示例,爬取百度页面  
  
import requests #导入爬虫的库,不然调用不了爬虫的函数  
  
response = requests.get("http://www.baidu.com")  #生成一个response对象  
  
response.encoding = response.apparent_encoding #设置编码格式  
  
print("状态码:"+ str( response.status_code ) ) #打印状态码  
  
print(response.text)#输出爬取的信息

2. A continuación se muestran ejemplos de métodos de obtención de uso común y ejemplos de paso de parámetros.

# 第二个get方法实例  
  
import requests #先导入爬虫的库,不然调用不了爬虫的函数  
  
response = requests.get("http://httpbin.org/get")  #get方法  
  
print( response.status_code ) #状态码  
  
print( response.text )  

3. Publique ejemplos de métodos de uso común; también hay ejemplos de paso de parámetros a continuación.

# 第三个 post方法实例  
  
import requests #先导入爬虫的库,不然调用不了爬虫的函数  
  
response = requests.post("http://httpbin.org/post")  #post方法访问  
  
print( response.status_code ) #状态码  
  
print( response.text )  

4. Poner instancia de método

# 第四个 put方法实例  
  
import requests #先导入爬虫的库,不然调用不了爬虫的函数  
  
response = requests.put("http://httpbin.org/put")  # put方法访问  
  
print( response.status_code ) #状态码  
  
print( response.text )  

5. Métodos comúnmente utilizados para obtener ejemplos de paso de parámetros de métodos (1)

Si necesita pasar varios parámetros, simplemente use el símbolo & para conectarlos de la siguiente manera:

# 第五个 get传参方法实例  
  
import requests #先导入爬虫的库,不然调用不了爬虫的函数  
  
response = requests.get("http://httpbin.org/get?name=hezhi&age=20")  # get传参  
  
print( response.status_code ) #状态码  
  
print( response.text )  

6. Métodos comúnmente utilizados para obtener ejemplos de paso de parámetros de métodos (2)

Puedes pasar múltiples parámetros usando un diccionario.

# 第六个 get传参方法实例  
  
import requests #先导入爬虫的库,不然调用不了爬虫的函数  
  
data = {
    
      
  "name":"hezhi",  
  "age":20  
}  
response = requests.get( "http://httpbin.org/get" , params=data )  # get传参  
  
print( response.status_code ) #状态码  
  
print( response.text )  

7. Ejemplo de paso de parámetros de método de publicación de método de uso común (2). ¿Es similar al anterior?

# 第七个 post传参方法实例  
  
import requests #先导入爬虫的库,不然调用不了爬虫的函数  
  
data = {
    
      
  "name":"hezhi",  
  "age":20  
}  
response = requests.post( "http://httpbin.org/post" , params=data )  # post传参  
  
print( response.status_code ) #状态码  
  
print( response.text )  

8. Con respecto a omitir el mecanismo anti-rastreo, tome a zh dad como ejemplo.

# 第好几个方法实例  
  
import requests #先导入爬虫的库,不然调用不了爬虫的函数  
  
response = requests.get( "http://www.zhihu.com")  #第一次访问知乎,不设置头部信息  
  
print( "第一次,不设头部信息,状态码:"+response.status_code )# 没写headers,不能正常爬取,状态码不是 200  
  
#下面是可以正常爬取的区别,更改了User-Agent字段  
  
headers = {
    
      
  
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36"  
  
}#设置头部信息,伪装浏览器  
  
response = requests.get( "http://www.zhihu.com" , headers=headers )  #get方法访问,传入headers参数,  
  
print( response.status_code ) # 200!访问成功的状态码  
  
print( response.text )  

9. Rastree información y guárdela localmente

Debido a la relación del directorio, se creó una carpeta llamada rastreador en la unidad D y luego se guardó la información.

Preste atención a la configuración de codificación al guardar el archivo.

# 爬取一个html并保存  
  
import requests  
  
url = "http://www.baidu.com"  
  
response = requests.get( url )  
  
response.encoding = "utf-8" #设置接收编码格式  
  
print("\nr的类型" + str( type(response) ) )  
  
print("\n状态码是:" + str( response.status_code ) )  
  
print("\n头部信息:" + str( response.headers ) )  
  
print( "\n响应内容:" )  
  
print( response.text )  
  
#保存文件  
file = open("D:\\爬虫\\baidu.html","w",encoding="utf")  #打开一个文件,w是文件不存在则新建一个文件,这里不用wb是因为不用保存成二进制  
  
file.write( response.text )  
  
file.close()  

[Siguiendo la tendencia de los tiempos, he recopilado muchos materiales de aprendizaje de Python aquí y los he subido al servidor oficial de CSDN. Los amigos que lo necesiten pueden escanear el código QR a continuación para obtenerlos]

1. Esquema del estudio

Insertar descripción de la imagen aquí

2. Herramientas de desarrollo

Insertar descripción de la imagen aquí

3. Materiales básicos de Python

Insertar descripción de la imagen aquí

4. Datos prácticos

Insertar descripción de la imagen aquí

Supongo que te gusta

Origin blog.csdn.net/Z987421/article/details/133270471
Recomendado
Clasificación