【python爬虫】动态html

其他 2019-12-22 19:50:48 阅读次数: 0

一、反爬策略　

　　1、请求头

　　　　——user-agent
　　　　——referer
　　　　——cookie

　　2、访问频率限制

　　　　——代理池
　　　　——再用户访问高峰期进行爬取，冲散日志。12-13 7-10
　　　　——设置等待时长。time.sleep(3)

　　3、ajax异步请求，用接口获取数据

　　4、能一次性获取的数据，绝不发送第二次请求（获取数据的过程中尽量减少请求次数）

　　5、页面内容是js代码

　　　　selenium+phantomjs的组合进行页面内容的获取

二、html页面的技术

　　1、js：页面在请求html的过程中，服务器返回html，同时还会请求js文件。
　　2、jqery：js的库，方便js开发。
　　3、ajax：web的异步请求技术

三、selenium和phantomjs

　　1、什么是selenium？

　　　　selenium一个web自动化测试工具。【但是它本身是不带浏览器】。这个工具其实就是作为一些外部工具驱动来使用的，可以控制一些外部应用来完成自动化测试。

　　2、phantomjs

　　　　是一个内置无界面浏览器引擎。--无界面可以提高程序运行速度。
　　　　因为phantomjs是一个浏览器引擎，所以他最大的功能就是执行页面的js代码。

　　3、安装selenium和phantomjs

　　　　selenium安装：pip install selenium==2.48.0
　　　　phantomjs安装：百度phantomjs镜像--->下载一个Windows版本的————>phantomjs-2.1.1-windows.zip

　　　　可视化的chrome浏览器插件：---chromedriver安装：
　　　　下载：百度：chromedriver镜像

　　　　　　（1）保证chrome是正版。
　　　　　　（2）查看自己chrome的版本号：73.0.3683.86
　　　　　　（3）找一个和自己版本号最接近的版本下载。

　　　　将下载好的exe文件复制到：C:\Anaconda3\Scripts

猜你喜欢

转载自www.cnblogs.com/Tree0108/p/12080654.html

【python爬虫】动态html

Python爬虫之动态HTML

Python爬虫(十九)_动态HTML介绍

爬虫基础（动态HTML）

Python爬虫开发【第1篇】【动态HTML、Selenium、PhantomJS】

[Python爬虫] 八、动态HTML处理之Selenium与PhantomJS

Python爬虫：selenium动态加载HTML的常用方法【汇总笔记】

黑马python2.7的爬虫3- 动态HTML处理和机器图像识别

3-Python爬虫-动态HTML/Selenium+PhantomJS/chrome无头浏览器-chromedriver

Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容

Python爬虫入门教程三：requests-html处理动态网页

Python爬虫：Selenium+BeautifulSoup解析动态HTML页面【附完整代码】

HTML + Python + Django + 爬虫 + Pyecharts 实现疫情大数据可视化实时动态展示

爬虫初阶（五）—— 动态HTML与selenium

Python爬虫之HTML知识

python爬虫(五)-------------------xml与HTML

python爬虫——HTML，CSS，JS

python爬虫入门-html基础

Python 花瓣网动态爬虫

Python网络爬虫——动态内容

Python爬虫使用动态代理

Python 爬虫设置动态代理

Python + Selenium动态房价爬虫！

Python爬虫动态获取Cookie

Python爬虫：动态获取页面

python 爬虫（八）常见的反爬措施以及应对措施（爬虫必备）+ 动态Html页面的处理方法 + selenium+PhantomJS的介绍及安装

python爬虫模块之HTML下载模块

python爬虫模块之HTML解析模块

Python写爬虫——抓取网页并解析HTML

python爬虫1---HTML基础

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)