v少学爬虫day01

640?wx_fmt=gif

期末考试终于结束了,v少终于可以嗨皮了2_04.png最近v少在看一本小说叫《阴间神探》,讲述的是主角宋阳一系列的破案故事。

640?wx_fmt=png

不过让v少难受的是,之前在网上找的txt版本不是完整版的,而在网站上看时不时的会出现弹窗广告,这就让v少很不爽了,于是v少决定学习python爬虫技术把自己想看的小说爬取下来。说干就干,let's go!

640

找目标网页,分析网页结构

打开百度,输入关键字“阴间神探”,找到相应的网页链接,进去后,打开开发者模式,我用的是谷歌浏览器所以直接按F12就可以,当然有些电脑得按Fn+12,根据个人电脑的情况来。

640?wx_fmt=jpeg

进入页面后,我选择第一章并点击右键开始审查元素,于是浏览器的开发者模式就被打开了。通过观察网页结构可以发现每一个章节对应着一个html。

640?wx_fmt=jpeg

点击第一章进去看看,发现浏览器的地址栏上后缀多了xxxx.html的字样,而这个xxxx.html对应的正是每一个a标签要跳转的地址。

640?wx_fmt=jpeg

于是小v打算先爬取出每一章对应的html,然后在到具体的章节里爬取出相应的内容然后将其写在txt文本文件中。

640

编写代码

定义两个函数,函数的参数均为url,一个函数用来获取每一章对应的html并将其存入列表中作为返回值返回,另外一个函数则是获取对应章节里的内容并将其写入txt文本文件中。

640?wx_fmt=png

640

爬取结果

640?wx_fmt=png

我们来看看爬取的最终结果

640?wx_fmt=png

咱们再导入手机中查看

640?wx_fmt=png

哈哈,大功告成,美滋滋,不过800多章的小说爬取花了大概3分多钟的样子,这个速度v少还是不满意的,所以v少打算多进程爬取。关于多进程爬取v少在下一期推文里再做介绍了。

温馨提示:要在在法律允许的条件下爬虫

未完待续

640?

点个赞,证明你还爱我

长按二维码,关注我们

640?wx_fmt=png

发布了18 篇原创文章 · 获赞 20 · 访问量 1461

猜你喜欢

转载自blog.csdn.net/qq_40401866/article/details/95425294