20 líneas de código Python, fácil acceso a varias novelas, muy simple

dos pitidos

Como joven moderno, creo que debe haber pocos que no hayan leído novelas, jeje~

En términos generales, ¿qué hacemos cuando hay escasez de libros? Naturalmente, vaya a una determinada lista de clasificación para encontrar primero el nombre de la novela, y luego busque a Du Niang para buscar, oye, Biquge encontrará la respuesta, tan hermosa ~

inserte la descripción de la imagen aquí
Pero es tan problemático, descarguemos todo directamente con python y mirémoslo lentamente~
Los niños solo toman decisiones, los adultos tienen que elegir...


Está bien, dejemos de hablar, todos me regañarán más tarde~

Listo para trabajar

módulo de medio ambiente

Instalemos el software si el software no está instalado, e instalemos el módulo si el módulo no está instalado. No hablaré sobre el software.

Los módulos que usamos son estos dos módulos, que necesitan ser instalados.

requests   # 发送请求
re     # 正则表达式模块

pip install El nombre del módulo se puede instalar. Si no puede, puede ver el artículo en la parte superior de mi página de inicio. Hay tutoriales especialmente escritos para hermanos que no lo conocen en absoluto. El paquete de instalación de Python/pycharm y el video tutorial está en el lado izquierdo de la página de inicio.

dirección de destino

https://leer.Aquí qi todos tienen un vistazo.com/chapter/3i-t4PVRihdwe0zGvdPFgA2/djLVNZuVg7eaGfXRMrUjdw2/

Simplemente elimine la fuente china, puede cambiar el objetivo usted mismo, puede usar el mismo sitio.

proceso de rastreo

El proceso del rastreador es básicamente estos pasos, no lo explicaré en detalle aquí, algunos de los artículos anteriores han hablado de ello.

1. 发送请求
2. 获取数据
3. 解析数据
4. 保存数据

Vídeo explicación:

Usa Python para mostrarte todas las novelas en Internet

código completo

import requests     # 发送请求
import re

# 伪装
headers = {
    
    
    'cookie': '_yep_uuid=b1421b7f-11da-b15f-a3ad-95316478f93c; e1=%7B%22pid%22%3A%22qd_P_read%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A3%7D; e2=%7B%22pid%22%3A%22qd_P_read%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A3%7D; newstatisticUUID=1648708045_1995757040; _csrfToken=mAWbsvESMNwir4NfKBy5fy8RedwvNBabTq3PLx6r; fu=721555856; _gid=GA1.2.1193345906.1648708045; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A18%22%2C%22l1%22%3A3%7D; e2=; qdrs=0%7C3%7C0%7C0%7C1; showSectionCommentGuide=1; qdgd=1; rcr=1031788647%2C1031920667; bc=1031920667%2C1031788647; pageOps=1; lrbc=1031788647%7C686160165%7C0%2C1031920667%7C695153167%7C1; _ga_FZMMH98S83=GS1.1.1648708044.1.1.1648708759.0; _ga_PFYW0QLV3P=GS1.1.1648708044.1.1.1648708759.0; _ga=GA1.2.777546916.1648708045',
    'referer': 'https://book.大家自己改一下,看了准备工作就知道了.com/',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.84 Safari/537.36',
}
url = 'https://book.大家自己改一下,看了准备工作就知道了.com/info/1031920667/#Catalog'
html_data = requests.get(url=url, headers=headers).text
info_list = re.findall('<h2 class="book_name"><a href="(.*?)" target="_blank" data-eid=".*?" data-cid=".*?" alt=".*?" title=".*?">(.*?)</a></h2>', html_data)
for link, title in info_list:
    link = 'https:' + link
    # print(link, title)
    # 1. 发送请求
    response = requests.get(url=link, headers=headers)
    # 2. 获取数据
    link_data = response.text
    # print(html_data)
    # 3. 解析数据
    # 网页标签 <p></p> <a></a> <div></div> <img />
    # <div class="read-content j_readContent" id=".*?">(.*?)</div>
    text = re.findall('<div class="read-content j_readContent" id=".*?">(.*?)</div>', link_data, re.S)[0]
    text = text.replace('<p>', '\n')
    text = title + '\n\n' + text
    print(text)
    # 4. 保存数据
    with open('网恋女友竟是九天神凰.txt', mode='a', encoding='utf-8') as f:
        f.write(text)

Hermanos, todo el código está aquí, probemos ~

Supongo que te gusta

Origin blog.csdn.net/fei347795790/article/details/124109004
Recomendado
Clasificación