scrapy框架下,爬取小说,解决章节乱序问题(小说封面+章节内容+简介)练手Demo

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接: https://blog.csdn.net/zz001357/article/details/102753070

首先,要感谢   @数学狂魔博客的启发,https://blog.csdn.net/qq_43391383/article/details/86930106,在他的博客中是采用把标题拆开,做成引导顺序的形式,然后进行同步IO,但我发现,这样的方法并不适用于每一种标题。如,第一章,第二章...这样的就不好拆了,于是我就想到自己加一个id的形式。思路类似于写数据表的时候,我们要给表添加一个自增的id,一个道理。

scrapy框架如何搭建,请自行百度,网上教程一大堆。废话不说,上代码。

第一步:在spiders里写下爬虫的业务代码(敲黑板,重点来了,解决乱序的)

这里设置一个自增id,为之后爬取每一章有一个自增的id,如  1:xxxx,2:xxxx,3:xxx     .....

接下来,在解析内容里,把之前的开头id+:  用正则表达式弄掉

最后,改写close,章节内容就是和网站上的顺序一样了(至于为什么要改写,咱也不知道,咱也没地方问)

第四步,设置

因为不需要异步,所以不需要开启管道

最后,添加一个启动,不用每次都输代码,烦

最后一个必须是爬虫逻辑名

ps:小弟第一次写博客,写的不好的地方请指正,另外感谢https://blog.csdn.net/qq_43391383/article/details/86930106的启发,还有在工作中帮助我的人

猜你喜欢

转载自blog.csdn.net/zz001357/article/details/102753070