v少学爬虫day01

640?wx_fmt=gif

期末考试终于结束了，v少终于可以嗨皮了。最近v少在看一本小说叫《阴间神探》，讲述的是主角宋阳一系列的破案故事。

640?wx_fmt=png

不过让v少难受的是，之前在网上找的txt版本不是完整版的，而在网站上看时不时的会出现弹窗广告，这就让v少很不爽了，于是v少决定学习python爬虫技术把自己想看的小说爬取下来。说干就干，let's go!

640

找目标网页，分析网页结构

打开百度，输入关键字“阴间神探”，找到相应的网页链接，进去后，打开开发者模式，我用的是谷歌浏览器所以直接按F12就可以，当然有些电脑得按Fn+12，根据个人电脑的情况来。

640?wx_fmt=jpeg

进入页面后，我选择第一章并点击右键开始审查元素，于是浏览器的开发者模式就被打开了。通过观察网页结构可以发现每一个章节对应着一个html。

640?wx_fmt=jpeg

点击第一章进去看看，发现浏览器的地址栏上后缀多了xxxx.html的字样，而这个xxxx.html对应的正是每一个a标签要跳转的地址。

640?wx_fmt=jpeg

于是小v打算先爬取出每一章对应的html，然后在到具体的章节里爬取出相应的内容然后将其写在txt文本文件中。

640

编写代码

定义两个函数，函数的参数均为url，一个函数用来获取每一章对应的html并将其存入列表中作为返回值返回，另外一个函数则是获取对应章节里的内容并将其写入txt文本文件中。

640?wx_fmt=png

640

爬取结果

640?wx_fmt=png

我们来看看爬取的最终结果

640?wx_fmt=png

咱们再导入手机中查看

640?wx_fmt=png

哈哈，大功告成，美滋滋，不过800多章的小说爬取花了大概3分多钟的样子，这个速度v少还是不满意的，所以v少打算多进程爬取。关于多进程爬取v少在下一期推文里再做介绍了。

温馨提示：要在在法律允许的条件下爬虫

未完待续

640?

点个赞，证明你还爱我

长按二维码，关注我们

640?wx_fmt=png

发布了18 篇原创文章 · 获赞 20 · 访问量 1461

私信关注