Comenzando con el rastreador de Python (1): rastreando el código fuente de toda la página web

Uno, código fuente

Utilice solicitudes de bibliotecas de terceros para rastrear páginas web

import requests
# encoding:utf-8  #默认格式utf-8

def get_html(url): #爬取源码函数
    headers = {
    
    
        'User-Agent': 'Mozilla/5.0(Macintosh; Intel Mac OS X 10_11_4)\
        AppleWebKit/537.36(KHTML, like Gecko) Chrome/52 .0.2743. 116 Safari/537.36'

    }  # 模拟浏览器访问
    response = requests.get(url, headers=headers)  # 请求访问网站
    response.encoding = response.apparent_encoding #设置字符编码格式
    html = response.text  # 获取网页源码
    return html  # 返回网页源码

r = get_html('https://www.baidu.com/')
print(r) #打印网页源码

Dos, análisis de código

Digresión

El lenguaje Python es muy popular porque es simple y tiene una gran cantidad de bibliotecas de terceros. Si tiene una base de programación, entonces puede comprender bien la idea del lenguaje Python. Si no lo tiene, lo mejor es comprar un libro y estudiarlo. Recomiendo "Programación en Python desde la entrada a la práctica". Tanto mi compañero de cuarto como yo compramos este libro.

1. Importar el módulo

import requests

La declaración de importación nos permite abrir el módulo de solicitudes y usar los métodos del módulo en el siguiente código. Por supuesto, la premisa es que haya instalado el módulo de solicitudes. El autor de la biblioteca de solicitudes es Kenneth Reitz, y se adjunta un enlace a su biblioteca de solicitudes de GitHub . Puede consultar la idea y el estilo de código del gran dios.

2. Función

def get_html(url): #爬取源码函数
    headers = {
    
    
        'User-Agent': 'Mozilla/5.0(Macintosh; Intel Mac OS X 10_11_4)\
        AppleWebKit/537.36(KHTML, like Gecko) Chrome/52 .0.2743. 116 Safari/537.36'

    }  # 模拟浏览器访问
    response = requests.get(url, headers=headers)  # 请求访问网站
    response.encoding = response.apparent_encoding #设置字符编码格式
    html = response.text  # 获取网页源码
    return html  # 返回网页源码

Utilice el método get de la biblioteca de solicitudes para obtener el código fuente de la página web. Por supuesto, el código fuente aquí es el código fuente real, si desea obtener la información que desea, debe pasar por otro procesamiento.

Tres, la introducción de la biblioteca de solicitudes.

Haga clic en mis notas del rastreador de Python de GitHub ~ Actualización continua

Supongo que te gusta

Origin blog.csdn.net/Bob_ganxin/article/details/108720602
Recomendado
Clasificación