20 linhas de código Python, fácil acesso a vários romances, muito simples

dois bipes

Como jovem moderno, acredito que deve haver poucos que não leram romances, hehe~

De um modo geral, o que fazemos quando há escassez de livros? Naturalmente, vá para uma certa lista de classificação para encontrar o nome do romance primeiro, e depois procure por Du Niang para pesquisar, ei, Biquge virá com a resposta, tão linda ~

insira a descrição da imagem aqui
Mas é tão problemático, vamos baixar tudo diretamente com python e assistir devagar~
As crianças só fazem escolhas, os adultos têm que escolher...


Ok, vamos parar de falar, todo mundo vai me repreender mais tarde~

Pronto para trabalhar

módulo de ambiente

Vamos instalar o software se o software não estiver instalado e instalar o módulo se o módulo não estiver instalado, não vou falar sobre o software.

Os módulos que usamos são esses dois módulos, que precisam ser instalados.

requests   # 发送请求
re     # 正则表达式模块

pip install O nome do módulo pode ser instalado. Se você não puder, você pode ver o artigo no topo da minha página inicial. Existem tutoriais escritos especialmente para irmãos que não o conhecem. O pacote de instalação do Python/pycharm e o tutorial em vídeo está no lado esquerdo da página inicial.

endereço de destino

https://read.Aqui qi todo mundo tem um look.com/chapter/3i-t4PVRihdwe0zGvdPFgA2/djLVNZuVg7eaGfXRMrUjdw2/

Basta excluir a fonte chinesa, você mesmo pode alterar o destino, pode usar o mesmo site.

processo do rastreador

O processo do rastreador é basicamente esses passos, não vou explicar em detalhes aqui, alguns dos artigos anteriores falaram sobre isso.

1. 发送请求
2. 获取数据
3. 解析数据
4. 保存数据

Explicação do vídeo:

Use Python para mostrar todos os romances na Internet

código completo

import requests     # 发送请求
import re

# 伪装
headers = {
    
    
    'cookie': '_yep_uuid=b1421b7f-11da-b15f-a3ad-95316478f93c; e1=%7B%22pid%22%3A%22qd_P_read%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A3%7D; e2=%7B%22pid%22%3A%22qd_P_read%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A3%7D; newstatisticUUID=1648708045_1995757040; _csrfToken=mAWbsvESMNwir4NfKBy5fy8RedwvNBabTq3PLx6r; fu=721555856; _gid=GA1.2.1193345906.1648708045; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A18%22%2C%22l1%22%3A3%7D; e2=; qdrs=0%7C3%7C0%7C0%7C1; showSectionCommentGuide=1; qdgd=1; rcr=1031788647%2C1031920667; bc=1031920667%2C1031788647; pageOps=1; lrbc=1031788647%7C686160165%7C0%2C1031920667%7C695153167%7C1; _ga_FZMMH98S83=GS1.1.1648708044.1.1.1648708759.0; _ga_PFYW0QLV3P=GS1.1.1648708044.1.1.1648708759.0; _ga=GA1.2.777546916.1648708045',
    'referer': 'https://book.大家自己改一下,看了准备工作就知道了.com/',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.84 Safari/537.36',
}
url = 'https://book.大家自己改一下,看了准备工作就知道了.com/info/1031920667/#Catalog'
html_data = requests.get(url=url, headers=headers).text
info_list = re.findall('<h2 class="book_name"><a href="(.*?)" target="_blank" data-eid=".*?" data-cid=".*?" alt=".*?" title=".*?">(.*?)</a></h2>', html_data)
for link, title in info_list:
    link = 'https:' + link
    # print(link, title)
    # 1. 发送请求
    response = requests.get(url=link, headers=headers)
    # 2. 获取数据
    link_data = response.text
    # print(html_data)
    # 3. 解析数据
    # 网页标签 <p></p> <a></a> <div></div> <img />
    # <div class="read-content j_readContent" id=".*?">(.*?)</div>
    text = re.findall('<div class="read-content j_readContent" id=".*?">(.*?)</div>', link_data, re.S)[0]
    text = text.replace('<p>', '\n')
    text = title + '\n\n' + text
    print(text)
    # 4. 保存数据
    with open('网恋女友竟是九天神凰.txt', mode='a', encoding='utf-8') as f:
        f.write(text)

Irmãos, todo o código está aqui, vamos experimentar~

Acho que você gosta

Origin blog.csdn.net/fei347795790/article/details/124109004
Recomendado
Clasificación