python从入门到放弃篇33（selenium库）实现翻页爬取豆瓣小说，保存为xlsx文件到本地 - 代码天地

python从入门到放弃篇33（selenium库）实现翻页爬取豆瓣小说，保存为xlsx文件到本地

移动开发 2020-07-27 10:11:13 阅读次数: 0

之前，我做过豆瓣小说爬取的案例，要是有兴趣的同志可以去看我之前写的博文，但是，那个博文中我提到过，爬取的并不完善，而且，用构造法来爬取效果较差，为了省事，现在我用selenium库来再重新爬取豆瓣小说，爬取内容完整，实现翻页爬取也无需重构新的url，案例网址：https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=0&type=T。

完整代码：
在这里插入图片描述

首先，还是导入我们可能会用到的库，selenium库和time库，如下图：
在这里插入图片描述
接着，先获取第一个的页面信息看看效果，使用get请求，设置浏览器等待时间为3秒，我们观察网页结构，如下图：

我们发现，可以根据标签ul提取整个页面的信息。所以，代码如下图：

不过，这仅仅只是第一个页面的信息，我们要提取全部的信息，我们通过观察发现，它的页数只有50页，start值980结束，所以，我们用for循环构造start值，构造新的url，如下图：
在这里插入图片描述
运行结果：

然后，我们给辛苦的成果留个纪念吧，所以，修改代码，如下图：

我们把它保存为xlsx格式，更利于数据的操作和存储。运行结果，如下图：

打开文件，如下图：

后面还有很多内容就不全部展示了，请大家见谅。

最后，感觉收获蛮大的，因为每天爬虫都会有新的思想，发现新的东西，写新的文章，不管怎么说，感谢大家前来观看鄙人的文章，文中或有诸多不妥之处，还望指出和海涵，若有朋友有疑问，可以私信我，互相交流探讨。

猜你喜欢

转载自blog.csdn.net/weixin_43408020/article/details/107588305

python从入门到放弃篇33（selenium库）实现翻页爬取豆瓣小说，保存为xlsx文件到本地

python从入门到放弃篇37（selenium库，requests库，time库）联合爬取豆瓣全部小说图片

python从入门到放弃篇26(lxml.etree库，urllib.request库，构造xpath路径，构造url）实现翻页爬取豆瓣书简介并保存数据

python从入门到放弃篇36（selenium库,request库,time库）开启万花筒联合爬取豆瓣小说图片

python从入门到放弃篇39（selenium库，requests库，正则表达式re，系统模块os）实现皇后大道东的音频爬取，并保存到本地。

python从入门到放弃篇34（selenium库开启万花筒写轮眼）开启无界面模式，爬取豆瓣名著

python从入门到放弃篇29（selenium库）for循环爬取名人名言动态网页并保存数据到本地计算机上

python--爬取豆瓣热门国产电视剧保存为文件

python从入门到放弃篇38（selenium库，requests库，lxml库)爬取音乐believer现场MV

python从入门到放弃篇30（selenium库，lxml库,urllib.request库)联合实现简单页面深入爬取

python从入门到放弃篇28(selenium库）实现天猫页面打开，用for循环爬取书名信息，并存储信息。

python从入门到放弃篇40（selenium库，lxml库，requests库，time库，构造url)爬取列表中的象棋视频

python从入门到放弃篇41（selenium库，requests库，lxml库，time库，os模块，jieba库，pyecharts库）实现爬取书籍信息，并进行可视化

python从入门到放弃篇35（BeautifulSoup库)爬取A神waiting for love歌词

day02 python从入门到放弃----爬取豆瓣电影Top250

Python爬虫学习笔记(2) _豆瓣电影TOP250(2)爬取详细数据，保存为CSV文件【urllib、request、bs4、error、CSV】

python从入门到放弃篇27（selenium库的安装，与基本配置）实现简单的web页面打开

使用Node拉取豆瓣高分记录片top20，本地保存为json文件

Python 爬取数电教案并保存为pdf

python爬取数据保存为图片

python爬取数据保存为MySQl格式

python爬取数据保存为txt格式

python爬取数据保存为Json格式

python爬取多个网页表格并保存为csv

python爬取昵称并保存为vss

python中Scrapy实战之爬取网页并保存为json文件

python爬取中国天气网天气并保存为word格式文件

python爬取中国天气网天气并保存为csv格式文件

【Python爬虫】使用美味汤BeautifulSoup爬取数据并保存为Excel文件

python爬取安居客地图页信息，并保存为csv文件

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)