对某网站小说的爬取下载 - 代码天地

对某网站小说的爬取下载

企业开发 2023-07-29 12:16:56 阅读次数: 0

import urllib.request  # 用于获取网页内容的模块

import bs4
import requests
from bs4 import BeautifulSoup  # 用于解析网页源代码的模块

header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.80 Safari/537.36', }
link = "http://www.zxcs.me/sort/25"  # 这是小说网站的武侠小说板块链接
r = requests.get(link, headers=header)  # 通过 requests 模块的 get 方法获取网页数据
html = r.content  # 获取网页内容
soup = BeautifulSoup(html, "html.parser")  # 通过 BeautifulSoup 模块解析网页，具体请参考官方文档。
books = soup.find("dt").select("a", limit=1)  # 通过分析网页源代码找到排行第一的武侠小说推荐

for s in books:
    s
book_id = s['href'][24:]  # 只截取小说链接中的 ID 部分
book_name = s.text  # 获取 a 标签的文本内容，即小说的名称。
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.80 '
                  'Safari/537.36', }
book_link = "http://www.zxcs.me/download.php?id=" + book_id  # 根据小说的 ID 号拼接出小说专页链接
response_book_down_id = requests.get(book_link, headers=header)  # 通过 requests 模块的 get 方法获取小说下载页的网页数据
html_s = response_book_down_id.content  # 获取小说下载页的网页内容
soup_s = bs4.BeautifulSoup(html_s, 'html.parser')
book_down_s = soup_s.find("span", class_="downfile").select("a", limit=1)

for book_down in book_down_s:
    book_down
book_down_id = book_down['href'][25:]  # 只截取小说下载名称中的 ID 部分
book_down_link = "http://185.163.45.196/20/" + book_down_id
print("正在下载.\n\r")
response = requests.get(book_down_link, headers=header).content
f = open(book_name + ".rar", 'wb')  # 以二进制的形式写入文件中
f.write(response)
f.close()
print("下载完成.\n\r")

猜你喜欢

转载自blog.csdn.net/weixin_42043935/article/details/103773584

对某网站小说的爬取下载

分享一个多方式精确爬取下载某小说网站上万本小说的自写爬虫脚本

python3爬虫实战-requests+beautifulsoup-爬取下载顶点网站的小说

用Python爬取某网站小说

scrapy爬取某网站小说

爬虫案例某网站小说下载

python下载小说网站的小说,python下载小说的代码

Python爬虫爬取下载美国科研网站数据

Python实现某网站爬取小说（爬虫）

某网站小说CSS反爬实战分析

初入爬虫-爬小说的代码

python爬取下载b站视频

[Python_scrapy图片爬取下载]

python爬取小说并下载

python爬虫--一次爬取小说的尝试

python如何快速的爬取小说的正确姿势

某小说网站-nunu书房

爬虫爬取小说网站

爬虫小案例——爬取网站小说

爬取笔趣阁网站小说

Python爬虫爬取网站小说

python爬虫之爬取网站小说

Python爬取小说网站

python 爬取小说网站实战

python爬虫爬取网站小说

python爱奇艺VIP视频爬虫爬取下载

Python 爬虫简单实现（爬取下载链接）

python爬虫入门 ✦ 爬取下载网易云音乐

python爬虫-梨视频-短视频爬取下载（原创）

17-用python爬取下载女神照片

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)