【Python】【selenium】为什么结合selenium+beautiful Soup能够大大提高爬虫效率 - 代码天地

【Python】【selenium】为什么结合selenium+beautiful Soup能够大大提高爬虫效率

企业开发 2022-08-08 08:19:10 阅读次数: 0

【背景】

如果纯用selenium写爬虫，总觉得无论从编写还是从执行的效率来说都比较低，其中一个原因，就是selenium本质上属于自动化测试工具，重点还是集中在模仿人的网页行为，将这些行为自动化的层面，换句话说，selenium在爬虫方面的长处是模拟互动动作，但是对于静态网页文件的信息处理效率不见得高。

【更优方案】

通过Python优秀的结合能力，我们可以将强在互动模拟的selenium和强在静态网页数据处理的beautiful soup结合起来，强强联手，大大提高爬虫的效率。

【结合方法】

通过如下代码，将某一个时点状态的selenium driver转化成html数据对象传给soup进行静态分析。

    html = driver.page_source
    soup = BeautifulSoup(html, "html.parser")

这里的driver就是你在程序中实例化的webdriver。

【用法要点】

selenium负责通过模拟点击等动作到达想要进行静态分析的页面状态
soup负责吃进静态页面html信息进行高效的静态数据分析处理。

猜你喜欢

转载自blog.csdn.net/weixin_41697242/article/details/125537382

【Python】【selenium】为什么结合selenium+beautiful Soup能够大大提高爬虫效率

7个最受欢迎的Python库，大大提高开发效率

Selenium结合Beautiful Soup4编写简单爬虫

解密云控系统拉群功能为什么云控系统能大大提高成交度?

Eclipse快捷键大全，掌握了Eclipse快捷键功能，能够大大提高开发效率。Eclipse中有如下一些和编辑相关的快捷键。

基于scrapy的可配置爬虫，大大提高工作效率

记录一个sql优化后大大提高查询效率的情形

超好用的Redis管理及监控工具treeNMS，可大大提高你的工作效率！

5个Excel实用技巧，帮你大大提高工作效率！

赶紧下载SublimeText并快速设置代码自动补全，效率大大提高

这些 Linux 技巧大大提高你的工作效率

这些linux技巧大大提高你的工作效率

这些linux小技巧大大提高你的工作效率

巧用Kotlin：内置函数let、also、with、run、apply大大提高你的开发效率！

自定义注解校验工具类，大大提高开发效率

相见恨晚的Windows热键，大大提高工作办公效率

Mac自带的分屏技巧，大大提高工作效率！

刷脸支付因为科技的发展效率大大提高

一个shell免交互，大大提高工作效率

可以大大提高工作效率的表格的使用技巧

苹果放出快捷指令专题介绍页面，大大提高了 Mac 使用效率

爬虫定位器--Beautiful Soup和selenium用法大全

Python爬虫--Beautiful Soup

Windows环境下python爬虫常用库和工具的安装（UrlLib、Re、Requests、Selenium、lxml、Beautiful Soup、PyQuery 、PyMySQL等等）

超好用的Redis管理及监控工具，使用后可大大提高你的工作效率！

Android自动生成代码，可视化脚手架，将大大提高开发效率

Python 爬虫 ---- Beautiful Soup（二）

Python 爬虫 ---- Beautiful Soup（一）

Visual Studio中常用的快捷键，正确熟练地使用快捷键，将大大提高你的编程工作效率

【广州华锐互动】智能变电站AR仿真实训系统大大提高培训的效率和质量

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)