利用Python 3 爬取网络小说(一、初步构想)

需要说明一下,写这篇文章的初衷并不是真的想要看小说,而是出于练手的目的,仅供大家学习交流之用,如果真的想看小说,经济允许的情况下还是建议大家支持正版

小说网站:https://www.x4399.com/(笔趣阁)
编辑器:Notepad++Adobe Dreamweaver CS6
浏览器:Chrome
标准库:urllib( HTTP 请求库)
第三方库:

  • pyquery(网页解析库,jQuery的Python版本)
  • requests(可以理解为urllib的升级版,处理URL资源特别方便)

在实际工作之前,我们先需要思考一下具体要实现什么样的功能,设定一个大体的框架:
首先,打开这个小说网站,可以看到有很多推荐内容,这里我们可以随便选一个,假设我想看这本《伏天氏》

笔趣阁首页
可以看到进入了书籍详情页,这个页面包含了这本小说的全部目录,我们需要获取这个网址来抓取小说章节链接

目录页
这里我们点进第一章,就可以看到书籍正文了,我们需要获取每一个章节的正文内容

在这里插入图片描述
然后将获取到的内容写入文件,就基本的实现了我们的目标,但是问题来了:我们每看一本小说都需要打开浏览器查找书籍查看链接是非常麻烦的,所以我们需要添加一个搜索功能,来帮助我们直接查找想看的小说

为了更直观一些,我建立了一张简单的思维导图:
思维导图
好了,这篇基本就到这里了,下篇开始实际操作

猜你喜欢

转载自blog.csdn.net/sh15774842048/article/details/88992536