Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容

其他 2019-05-11 11:41:19 阅读次数: 0

Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容

源代码和实验过程

假如我们要抓取京东手机页面的手机名称和价格(价格在网页源码是找不到的)，如下图：

Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容

第一步：利用集搜客谋数台的直观标注功能，可以极快速度自动生成一个调试好的抓取规则，其实是一个标准的xslt程序，如下图，把生成的xslt程序拷贝到下面的程序中即可。注意：本文只是记录实验过程，实际系统中，将采用多种方式把xslt程序注入到内容提取器重。

Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容

第二步：执行如下代码(在windows10， python3.2下测试通过)，请注意：xslt是一个比较长的字符串，如果删除这个字符串，代码没有几行，足以见得Python之强大

Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容

第三步：下图可以看到，网页中的手机名称和价格被正确抓取下来了

Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容

最后

我自己是一名从事了5年web前端开发的老程序员，辞职目前在做线上教育讲师，每晚都会直播，今年年初我花了一个月整理了一份最适合2018年学习的web前端干货，从最基础的HTML+CSS+JS到移动端HTML5都有整理，送给每一位前端小伙伴，这里是前端学习者聚集地，欢迎初学和进阶中的小伙伴。web前端交流扣扣裙：884975954。

猜你喜欢

转载自blog.csdn.net/web_XingZi/article/details/90107053

Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容

如何使用Selenium+PhantomJS抓取动态页面以及常见指令和问题

3-Python爬虫-动态HTML/Selenium+PhantomJS/chrome无头浏览器-chromedriver

selenium+PhantomJs爬虫

python爬虫攻略:selenium+phantomjs初探

Selenium+PhantomJS抓取数据

Selenium+PhantomJS使用

Selenium+PhantomJS爬虫之路

Python 之selenium+phantomJS斗鱼抓取案例

C#使用Selenium+PhantomJS抓取数据

Python学习笔记--Python 爬虫入门 -17-10 动态数据的采集 Selenium+PhantomJS

python获取完整网页内容（即包括js动态加载的）：selenium+phantomjs

python获取完整网页内容（即包括js动态加载的）：selenium+phantomjs

python 爬虫（八）常见的反爬措施以及应对措施（爬虫必备）+ 动态Html页面的处理方法 + selenium+PhantomJS的介绍及安装

python爬虫(17)爬出新高度_抓取微信公众号文章（selenium+phantomjs）

使用selenium+chrome能抓取数据，而selenium+phantomjs抓取数据为空？

Python爬虫开发【第1篇】【动态HTML、Selenium、PhantomJS】

[Python爬虫] 八、动态HTML处理之Selenium与PhantomJS

Selenium+PhantomJs 爬取网页内容

python Selenium+phantomjs 小技巧

爬虫使用selenium和PhantomJS获取动态数据

使用selenium和PhantomJS抓取信息

selenium+phantomjs 模拟抓取淘宝分类信息

用Selenium+PhantomJS来抓取煎蛋网妹子图

Selenium+PhantomJS

selenium + phantomjs+python 外网动态爬虫

python3爬虫攻略：selenium+phantomjs二进宫

Python爬虫：selenium使用chrome和PhantomJS实用参数

python +selenium+phantomjs 登录爬取新浪微博动态js页面

基于selenium+phantomJS的动态网站全站爬取

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)