Uno, código fuente
Utilice solicitudes de bibliotecas de terceros para rastrear páginas web
import requests
# encoding:utf-8 #默认格式utf-8
def get_html(url): #爬取源码函数
headers = {
'User-Agent': 'Mozilla/5.0(Macintosh; Intel Mac OS X 10_11_4)\
AppleWebKit/537.36(KHTML, like Gecko) Chrome/52 .0.2743. 116 Safari/537.36'
} # 模拟浏览器访问
response = requests.get(url, headers=headers) # 请求访问网站
response.encoding = response.apparent_encoding #设置字符编码格式
html = response.text # 获取网页源码
return html # 返回网页源码
r = get_html('https://www.baidu.com/')
print(r) #打印网页源码
Dos, análisis de código
Digresión
El lenguaje Python es muy popular porque es simple y tiene una gran cantidad de bibliotecas de terceros. Si tiene una base de programación, entonces puede comprender bien la idea del lenguaje Python. Si no lo tiene, lo mejor es comprar un libro y estudiarlo. Recomiendo "Programación en Python desde la entrada a la práctica". Tanto mi compañero de cuarto como yo compramos este libro.
1. Importar el módulo
import requests
La declaración de importación nos permite abrir el módulo de solicitudes y usar los métodos del módulo en el siguiente código. Por supuesto, la premisa es que haya instalado el módulo de solicitudes. El autor de la biblioteca de solicitudes es Kenneth Reitz, y se adjunta un enlace a su biblioteca de solicitudes de GitHub . Puede consultar la idea y el estilo de código del gran dios.
2. Función
def get_html(url): #爬取源码函数
headers = {
'User-Agent': 'Mozilla/5.0(Macintosh; Intel Mac OS X 10_11_4)\
AppleWebKit/537.36(KHTML, like Gecko) Chrome/52 .0.2743. 116 Safari/537.36'
} # 模拟浏览器访问
response = requests.get(url, headers=headers) # 请求访问网站
response.encoding = response.apparent_encoding #设置字符编码格式
html = response.text # 获取网页源码
return html # 返回网页源码
Utilice el método get de la biblioteca de solicitudes para obtener el código fuente de la página web. Por supuesto, el código fuente aquí es el código fuente real, si desea obtener la información que desea, debe pasar por otro procesamiento.
Tres, la introducción de la biblioteca de solicitudes.
Haga clic en mis notas del rastreador de Python de GitHub ~ Actualización continua