用Python爬下十几万本小说，再也不会闹书荒！ - 代码天地

用Python爬下十几万本小说，再也不会闹书荒！

其他 2019-01-13 11:20:49 阅读次数: 0

自从看了师傅爬了顶点全站之后，我也手痒痒的，也想爬一个比较牛逼的小说网看看，于是选了宜搜这个网站，好了，马上开干，这次用的是mogodb数据库，感觉mysql太麻烦了下图是我选择宜搜里面遍历的网站

用Python爬下十几万本小说，再也不会闹书荒！

先看代码框架图

用Python爬下十几万本小说，再也不会闹书荒！

第一个，肯定先提取排行榜里面每个类别的链接啊，然后进入链接进行爬取，先看all_theme文件

用Python爬下十几万本小说，再也不会闹书荒！

看看运行结果，这是书籍类目的

用Python爬下十几万本小说，再也不会闹书荒！

扫描二维码关注公众号，回复： 4896816 查看本文章

这是构造出的每一个类目里面所有的页数链接，也是我们爬虫的入口，一共5000多页

用Python爬下十几万本小说，再也不会闹书荒！

接下来是封装的数据库操作，因为用到了多进程以及多线程每个进程，他们需要知道那些URL爬取过了、哪些URL需要爬取！我们来给每个URL设置两种状态：

outstanding:等待爬取的URL
complete:爬取完成的URL
processing:正在进行的URL。

嗯！当一个所有初始的URL状态都为outstanding；当开始爬取的时候状态改为：processing；爬取完成状态改为：complete；失败的URL重置状态为：outstanding。

为了能够处理URL进程被终止的情况、我们设置一个计时参数，当超过这个值时；我们则将状态重置为outstanding。

用Python爬下十几万本小说，再也不会闹书荒！

接下来是爬虫主程序

用Python爬下十几万本小说，再也不会闹书荒！

让我们来看看结果吧

用Python爬下十几万本小说，再也不会闹书荒！

猜你喜欢

转载自blog.csdn.net/qq_42156420/article/details/86409380

用Python爬下十几万本小说，再也不会闹书荒！

万字长文详解I/O，看完再也不会怀疑人生!

万字详解 HTTP 协议，WEB开发再也不会迷茫了

Python爬取双色球，妈妈再也不会担心我不会中奖了

Python网络解析库Xpath，妈妈再也不会担心我不会解析了

Python课堂点名器，妈妈再也不会担心我被老师点名了

Python网络请求库Requests，妈妈再也不会担心我的网络请求了（二）

Python网络请求库Requests，妈妈再也不会担心我的网络请求了(一)

Python网络请求库Requests，妈妈再也不会担心我的网络请求了(二)

Python爬取双色球，妈妈再也不会担心我是穷逼了

Python制作gif表情包生成工具，斗图再也不会输啦

再也不会错过抢红包了，用Python做的红包神器，抢到你不好意思

JS this详解看完再也不会出错了

再也不会忘记它们的区别：==和equals（）

[百家号]看完再也不会被坑！笔记本接口大揭秘：HDMI、DP、雷电

悬赏十几万元以用 Rust 重写 Prettier

Python爬取斗图啦，妈妈再也不会担心我无图可刷了

Python使用UUID库生成唯一ID，妈妈再也不会担心我的生成重复ID了

Python爬取校花网，妈妈再也不会担心我不给她发女朋友照片了

Python自动抢红包，超详细教程，再也不会错过微信红包了！

用Python爬下淘宝上面几万条数据，聊聊淘宝上飞机杯的故事

SpringMVC中的转发和重定向怎么用？有什么区别？（只看一遍，以后再也不会问什么是转发什么是重定向了！！！）

Ubuntu 18.04 可能再也不会有新的GTK主题了

还在为找数据而发愁吗？看完这篇你应该再也不会了！

只是，以后再也不会轻易的喜欢上一个人了。

代码块相关的题，特么再也不会做错了！

学会这12种语言，再也不会找不到工作了！

最方便的函数lambda，再也不会看不懂大神的代码！

参考了这篇双亲委派机制，就再也不会云里雾里啦！

521我发誓读完本文，再也不会担心Spring配置类问题了

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)