python从入门到放弃篇34（selenium库开启万花筒写轮眼）开启无界面模式，爬取豆瓣名著 - 代码天地

python从入门到放弃篇34（selenium库开启万花筒写轮眼）开启无界面模式，爬取豆瓣名著

移动开发 2020-07-28 10:31:13 阅读次数: 0

今天，突然发现，selenium库不开万花筒的话，有点脑热，因为，每爬一页就打开一个网页，除非我是撕裂者3990X的CPU，64核，128线的，但是，我的CPU不是，所以，怕到时候打开页面太多，直接卡机废了。。我就去搜了开启万花筒模式，这样就更好了，直接爬数据不用打开浏览器页面。

这次案例的网址是：https://book.douban.com/tag/%E5%90%8D%E8%91%97?start=0&type=T

完整代码：

首先，我们先导入需要用到的库，selenium库和time库。然后，开启selenium的万花筒模式（无界面），即不打开网页就能爬取信息。所以有：
在这里插入图片描述
然后，我们观察url地址，发现，它的start值会随着翻页规律性增加，每次增加20，等到start值达到980的时候，停止增加，因为start=980的时候，就是最后一页了。所以，我们可以人为构造url地址，我们观察网页结构，发现通过提取ul标签，可以将整个页面的内容抓取下来，如下图：
在这里插入图片描述

所以有：

运行结果，随机抽取开头和结尾截图，剩下的就不截图了，请大家见谅。

接着，我们要给我们的工作留个纪念，要不然太亏了，我选择以csv的文件格式保存数据。修改代码，如下图：

静等一小段时间后，运行结果：
在这里插入图片描述
去pycharm编辑器路径下面找到保存的文件，如下图：

打开，如下图，数据太多不便截图，请大家谅解：

pycharm编辑器中打开文件，如下图，数据太多不便截图，请大家谅解：

过瘾，第一次爬了将近5000行的数据，就一个字，爽！！这次学会开启万花筒写轮眼，这将是我陷入万花筒不能自拔的开始。。。。

最后，感谢大家前来阅读鄙人的文章，文中或有诸多不妥之处，还望指出和海涵。

猜你喜欢

转载自blog.csdn.net/weixin_43408020/article/details/107609671

python从入门到放弃篇34（selenium库开启万花筒写轮眼）开启无界面模式，爬取豆瓣名著

python从入门到放弃篇36（selenium库,request库,time库）开启万花筒联合爬取豆瓣小说图片

python从入门到放弃篇37（selenium库，requests库，time库）联合爬取豆瓣全部小说图片

【转】反压缩 js ，我的万花筒写轮眼开了，CV 能力大幅提升

python从入门到放弃篇33（selenium库）实现翻页爬取豆瓣小说，保存为xlsx文件到本地

python从入门到放弃篇38（selenium库，requests库，lxml库)爬取音乐believer现场MV

python从入门到放弃篇26(lxml.etree库，urllib.request库，构造xpath路径，构造url）实现翻页爬取豆瓣书简介并保存数据

python从入门到放弃篇40（selenium库，lxml库，requests库，time库，构造url)爬取列表中的象棋视频

python从入门到放弃篇30（selenium库，lxml库,urllib.request库)联合实现简单页面深入爬取

万花筒记事

螺旋万花筒

python从入门到放弃篇35（BeautifulSoup库)爬取A神waiting for love歌词

python从入门到放弃篇28(selenium库）实现天猫页面打开，用for循环爬取书名信息，并存储信息。

day02 python从入门到放弃----爬取豆瓣电影Top250

python爬虫之-------无界面爬取（快速入门）

炫酷的python -- 使用turtle图形库自动画万花筒

python selenium库安装，驱动安装，设置无界面模式

python从入门到放弃篇41（selenium库，requests库，lxml库，time库，os模块，jieba库，pyecharts库）实现爬取书籍信息，并进行可视化

如何用python画一个万花筒

python从入门到放弃篇39（selenium库，requests库，正则表达式re，系统模块os）实现皇后大道东的音频爬取，并保存到本地。

【火影专场】vite+vue3+scss解锁炒鸡万花筒血轮眼

python从入门到放弃篇29（selenium库）for循环爬取名人名言动态网页并保存数据到本地计算机上

PS制作万花筒动画

小米AI魔法万花筒解密

使用程序绘制万花筒图案

python从入门到放弃篇27（selenium库的安装，与基本配置）实现简单的web页面打开

python selenium chrome有界面与无界面模式

selenium无界面模式启动

Selenium edge 无界面模式

Java selenium无界面爬取需要登录的页面+验证码截取+验证码识别python tensorflow

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)