爬虫爬取小说网站的内容，并将各章节输出到各txt文件 - 代码天地

爬虫爬取小说网站的内容，并将各章节输出到各txt文件

其他 2020-03-09 23:08:02 阅读次数: 0

一、确定网站链接

代码用到的链接，是在 https://www.biqukan.com 主页选的一个连载小说的链接

from bs4 import BeautifulSoup
import requests

link = 'https://www.biqukan.com/1_1094'

二、查看网页源代码

发现：
1、网站是gbk编码的
在这里插入图片描述
2、章节都是有a标签的，要过滤出来这部分内容
3、我们要的是从正文卷开始的章节，想到切片截取

# 获取结果res，编码是gbk（这个网站就是gbk的编码）
res = requests.get(link)
res.encoding = 'gbk'

# 使用BeatifulSoup得到网站中的文本内容
soup = BeautifulSoup(res.text)
lis = soup.find_all('a')	# 
lis = lis[42:-13]           # 不属于章节内容的都去掉

# 用urllist存储所有{章节名称:链接}
urldict = {}

# 观察小说各个章节的网址，结合后面的代码，这里只保留 split_link = 'https://www.biqukan.com/'
tmp = link.split("/")
split_link = "{0}//{1}/".format(tmp[0], tmp[2])

# 将各章节名字及链接形成键值对形式，并添加到大字典 urldict中
for i in range(len(lis)):
    print({lis[i].string: split_link + lis[i].attrs['href']})
    urldict.update({lis[i].string: split_link + lis[i].attrs['href']})

from tqdm import tqdm
for key in tqdm(urldict.keys()):
    tmplink = urldict[key]          # 章节链接
    res = requests.get(tmplink)     # 链接对应的资源文件html
    res.encoding = 'gbk'

    soup = BeautifulSoup(res.text)  # 取资源文件中的文本内容
    content = soup.find_all('div', id='content')[0]  # 取得资源文件中文本内容的小说内容

    with open('text{}.txt'.format(key), 'a+', encoding='utf8') as f:
        f.write(content.text.replace('\xa0', ''))

发布了131 篇原创文章 · 获赞 81 · 访问量 6万+

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_43469047/article/details/104188941

爬虫爬取小说网站的内容，并将各章节输出到各txt文件

爬虫爬取小说网站

python爬虫，简单的爬取小说网站的阅读排名

scrapy爬虫-爬取wattpad外网小说网站

python爬虫爬取小说网站并转换为语音文件

python 爬取小说网站实战

Python爬取小说网站

Python利用创建1000个线程爬取盗版小说网站！并按章节排序！

爬虫爬取小说《动物农场》全部章节内容

spider爬虫练习，爬取顶点小说网，小说内容。

网络爬虫-爬取顶点小说网指定小说

利用python的requests和BeautifulSoup库爬取小说网站内容

学习python3爬虫爬取静态小说网站

python爬虫爬取笔趣网小说网站过程图解

用python爬取小说章节内容

话本小说网-文章内容爬取

使用scrapy爬虫,爬取起点小说网的案例

Python爬虫系列之小说网爬取

爬虫练习——爬取纵横小说网

python爬虫（1.爬盗版小说网站）

正则表达式爬取小说各章节链接

Python爬虫新手入门教学（十四）：爬取有声小说网站数据

爬虫初体验-爬取小说内容

爬虫小案例——爬取网站小说

Python爬虫爬取网站小说

python爬虫之爬取网站小说

python爬虫爬取网站小说

【Python3爬虫-爬小说】爬取某小说网小说1/2--利用网址顺序抓

五分钟写一个小爬虫，爬取小说并写入txt文件

Python爬虫入门实战系列（一）--爬取网络小说并存放至txt文件

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)