Nivel 0: rastreador preliminar

1. Obtenga los datos. De acuerdo con la URL proporcionada, haga una solicitud al servidor y luego devuelva los datos.

2. Analizar los datos. Analice los datos devueltos por el servidor en un formato que podamos entender.

3. Extraer los datos. Extraiga los datos que necesitamos de él.

4. Almacenar los datos. Guarde estos datos útiles para uso futuro y análisis.


1 、 request.get ()

import requests 
#引入requests库
res = requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/sanguo.md') 
#发送请求,并把响应结果赋值在变量res上。res是一个Response对象
print(res.status_code)
#查看响应状态,以检查请求是否成功
  • response.status_code (estado de respuesta)

  • respuesta.contenido (devuelve el contenido del objeto Respuesta en forma de datos binarios, adecuado para descargar imágenes, audio y video)

  • response.text (El contenido del objeto de respuesta se devuelve como una cadena, adecuado para descargar texto y el código fuente de la página web)

  • respuesta.encoding (define la codificación del objeto Response. Res.encoding solo se considera cuando el texto es ilegible)


2. Descargar fotos

import requests

res = requests.get('https://res.pandateacher.com/2018-12-18-10-43-07.png')
#发出请求,并把返回的结果放在变量res中
pic=res.content
#把Reponse对象的内容以二进制数据的形式返回
photo = open('ppt.jpg','wb')
#新建了一个文件ppt.jpg,这里的文件没加路径,它会被保存在程序运行的当前目录下。
#图片内容需要以二进制wb读写。
photo.write(pic) 
#写入pic的二进制内容
photo.close()
#关闭文件

3. Descargue el texto

import requests
#引用requests库
res = requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/sanguo.md')
#下载《三国演义》第一回,我们得到一个对象,它被命名为res
res.encoding='utf-8'
#定义Reponse对象的编码为utf-8。
novel=res.text
#把Response对象的内容以字符串的形式返回
k = open('《三国演义》.txt','a+')
#创建一个名为《三国演义》的txt文档,指针放在文件末尾,追加内容
k.write(novel)
#写进文件中     
k.close()
#关闭文档

4. Descargar audio

import requests

res = requests.get('https://static.pandateacher.com/Over%20The%20Rainbow.mp3')
print(res.status_code)

mp3 = res.content
#文件操作
p = open('E:\\Mypy\\练习作品\\Over The Rainbow.mp3','wb')
p.write(mp3)
p.close()

5. Ética de reptiles

El protocolo Robots es un estándar ético reconocido para los rastreadores de Internet. Su nombre completo es "Protocolo de exclusión de robots". Este protocolo se utiliza para indicar a los rastreadores qué páginas se pueden rastrear y cuáles no.

Verifique el acuerdo de robots del sitio web, agregue /robots.txt después del nombre de dominio del sitio web.

Publicado 23 artículos originales · elogiado 7 · visitas 1987

Supongo que te gusta

Origin blog.csdn.net/weixin_44641176/article/details/101861652
Recomendado
Clasificación