python | 爬虫笔记（七）- 动态渲染页面抓取Selenium - 代码天地

python | 爬虫笔记（七）- 动态渲染页面抓取Selenium

其他 2018-09-28 11:14:16 阅读次数: 0

JavaScript 动态渲染的页面不止 Ajax 这一种

另外有的ajax渲染接口含有很多加密参数，难以直接找出其规律

通过模拟浏览器运行的方式来实现，Selenium、Splash、PyV8、Ghost 等

7.1 Selenium的使用

自动化测试工具，支持多种浏览器。爬虫中主要用来解决js渲染问题

用 Selenium 来驱动浏览器加载网页的话，可以直接拿到JavaScript 渲染的结果了，加密不用再担心。

1- 声明浏览器对象

browser = webdriver.Chrome()

2- 访问页面

browser.get('https://www.taobao.com')

3- 查找节点

input_first = browser.find_element(By.ID, 'q') #单个节点
lis = browser.find_elements_by_css_selector('.service-bd li')

4- 节点交互

...

5- 获取节点信息

通过 page_source 属性可以获取网页的源代码，获取源代码之后就可以使用解析库如正则、BeautifulSoup、PyQuery 等来提取信息了。

不过 Selenium 已经提供了选择节点的方法，返回WebElement 类型，可以通过相关方法或属性来解析

6- 获取属性

7- 切换frame

8- 延时等待

确保节点已经加载出来

- 隐式等待

当查找节点而节点并没有立即出现的时候，隐式等待将等待一段时间再查找 DOM，默认的时间是 0。 implicitly_wait()

- 显式等待

指定好要查找的节点，然后指定一个最长等待时间。如果在规定时间内加载出来了这个节点，那就返回查找的节点，如果到了规定时间依然没有加载出该节点，则会抛出超时异常。

##本系列内容为《python3爬虫开发实战》学习笔记。本系列博客列表如下：

（零）学习路线

（一）开发环境配置

（二）爬虫基础

（三）基本库使用

（四）解析库使用

（五）数据存储

（六）Ajax数据爬取

（七）动态渲染页面爬取Selenium

持续更新...

对应代码请见：..

猜你喜欢

转载自www.cnblogs.com/geo-will/p/9717405.html

python | 爬虫笔记（七）- 动态渲染页面抓取Selenium

python爬虫14--Selenium动态渲染页面抓取

python3爬虫(8)--动态渲染页面使用Selenium库模拟浏览器抓取数据

Python爬虫学习笔记（七）————Selenium

【python学习笔记】38：使用Selenium抓取去哪儿网动态页面

Python web 动态渲染页面的抓取

Python初级爬虫体验爬取静态页面v.s. selenium webdriver 抓取动态页面

【python爬虫笔记】动态渲染页面爬取

PYTHON 爬虫笔记七:Selenium库基础用法

python笔记 ( 七 ) 爬虫

python+selenium爬虫抓取动态网页

Python爬虫学习笔记（七）

python--Selenium(动态渲染页面爬取）

爬虫动态渲染页面爬取Selenium中级篇

爬虫之Selenium 动态渲染页面爬取

Python爬虫抓取页面内容

【爬虫学习笔记】用Python抓取指定页面

自学python爬虫（七）selenium库的使用

Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容

爬虫--python3.6+selenium+BeautifulSoup实现动态网页的数据抓取，适用于对抓取频率不高的情况

Python爬虫入门实战七：使用Selenium--以抓取QQ空间好友说说为例

python爬虫笔记（七）:使用Scrapy框架

爬虫笔记：Python Selenium详解

Python爬虫使用selenium抓取网站数据

Python爬虫：selenium动态加载HTML的常用方法【汇总笔记】

Scrapy爬虫框架（实战篇）【Scrapy框架对接Splash抓取javaScript动态渲染页面】

Python + Selenium动态房价爬虫！

python3 爬虫第二步Selenium 使用简单的方式抓取复杂的页面信息

python爬虫：抓取页面上的超链接

Python爬虫技术系列-03/4flask结合requests测试静态页面和动态页面抓取

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)