scrapy框架下，爬取小说，解决章节乱序问题（小说封面+章节内容+简介）练手Demo - 代码天地

scrapy框架下，爬取小说，解决章节乱序问题（小说封面+章节内容+简介）练手Demo

其他 2019-10-27 10:59:34 阅读次数: 0

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接： https://blog.csdn.net/zz001357/article/details/102753070

首先，要感谢 @数学狂魔博客的启发，https://blog.csdn.net/qq_43391383/article/details/86930106,在他的博客中是采用把标题拆开，做成引导顺序的形式，然后进行同步IO，但我发现，这样的方法并不适用于每一种标题。如，第一章，第二章...这样的就不好拆了，于是我就想到自己加一个id的形式。思路类似于写数据表的时候，我们要给表添加一个自增的id，一个道理。

scrapy框架如何搭建，请自行百度，网上教程一大堆。废话不说，上代码。

第一步：在spiders里写下爬虫的业务代码（敲黑板，重点来了，解决乱序的）

这里设置一个自增id，为之后爬取每一章有一个自增的id，如 1：xxxx，2：xxxx，3：xxx .....

接下来，在解析内容里，把之前的开头id+：用正则表达式弄掉

最后，改写close，章节内容就是和网站上的顺序一样了（至于为什么要改写，咱也不知道，咱也没地方问）

第四步，设置

因为不需要异步，所以不需要开启管道

最后，添加一个启动，不用每次都输代码，烦

最后一个必须是爬虫逻辑名

ps：小弟第一次写博客，写的不好的地方请指正，另外感谢https://blog.csdn.net/qq_43391383/article/details/86930106的启发，还有在工作中帮助我的人

猜你喜欢

转载自blog.csdn.net/zz001357/article/details/102753070

scrapy框架下，爬取小说，解决章节乱序问题（小说封面+章节内容+简介）练手Demo

用python爬取小说章节内容

爬虫爬取小说《动物农场》全部章节内容

爬取小说并以章节名保存

Scrapy、pandas、cn2an与pymysql解决爬取小说的乱序问题

python爬取小说（一）目录和章节内容爬取

爬虫-scrapy使用爬去笔趣阁小说链接+章节内容

爬虫爬取小说网站的内容，并将各章节输出到各txt文件

用bs4-Beautifulsoup爬取三国演义的小说章节内容

python3 爬取单章节小说并存取

笔趣看小说全部章节爬取实战

scrapy爬取小说内容并存储

scrapy 爬取小说

scrapy爬取小说

解决scrapy下载小说乱序

scrapy框架爬取小说信息

Scrapy 学习笔记 - 一个练手任务，爬取起点的全部小说名

scrapy爬取小说时换行问题

使用bs4实现将诗词名句网站中三国演义小说章节内容爬取

Python3爬虫小说章节内容

scrapy实例 ----- 爬取小说

scrapy爬取小说(一）

scrapy爬取小说实例

学习scrapy框架爬小说

多线程爬取小说时如何保证章节的顺序

正则表达式爬取小说各章节链接

Python利用创建1000个线程爬取盗版小说网站！并按章节排序！

python-scrapy爬取小说下载网小说

php实现TXT小说章节解析、小说章节在线阅读

scrapy初探之实现爬取小说

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)