python爬虫的常见方式 - 代码天地

python爬虫的常见方式

企业开发 2018-07-06 18:14:39 阅读次数: 0

requests+bs4+lxml直接获取并解析html数据
抓包ajax请求，使用requests获取并解析json数据
反爬严重的网站，使用selenium爬取
设置代理

a.urllib/requests/selenium+chrome/selenium+phantomjs设置代理

b.爬取免费代理网站中的免费代理IP存入redis做代理池，并定期提取检测（访问目标网站），使用flask搭建网站，从redis返回随机代理IP（不适合商用）

c.多台ADSL拨号主机安装tinyproxy做代理，定时拨号获取自己的IP存入远程redis做代理池，使用flask搭建网站，从redis返回随机代理IP（爬取天眼查/IT桔子/搜狗微信）

d.收费代理IP（爬取天眼查/IT桔子/搜狗微信）

cookie池
爬取APP：
a.charles/fiddler/wireshark/mitmproxy/anyproxy抓包，appium自动化爬取APP
b.mitmdump对接python脚本直接处理，appium自动化爬取APP
pyspider框架爬取
scrapy/scrapy-redis/scrapyd框架分布式爬取
验证码：
a.极验验证：selenium呼出验证码图案、截图，PIL对比色差、算出位置，selenium匀加速+匀减速模拟人类拖动并验证
b.微博手机版：selenium呼出验证码图案、截图，制作图像模板，selenium呼出验证码图案、截图，使用PIL将截图与图像模板对比色差，匹配成功后按照模板名字中的数字顺序使用selenium进行拖动并验证
c.接入打码平台，selenium呼出验证码图案、截图，发送到打码平台，平台返回坐标，selenium移动到坐标并点击并验证

猜你喜欢

转载自blog.51cto.com/wenguonideshou/2137296

python爬虫的常见方式

Python反爬虫的四种常见方式-JS逆向方法论

幽默的常见方式

Python爬虫突破封禁的6种常见方法

JavaScript事件绑定的常见方式

我面试别人的常见方式

JavaScript内存泄漏及常见方式

JavaScript创建对象常见方式

xml解析的常见方式

清除浮动的常见方式

前端性能优化常见方式

需求获取的常见方式

重新导入依赖的常见方式

细说——SQL注入的常见方式

SQL注入的常见方式

YUM源的几种常见方式

内网穿透常见方式推荐

flask部署的几种常见方式

python爬虫之常见的加密方式

Python爬虫定时计划任务的几种常见方法

python Os 模块常见方法

python创建字典的常见方法

python----装饰器（几种常见方式的使用与理解）

爬虫突破封禁的6种常见方法

常见方法

结构体定义的几种常见方式

下载文件实现的常见方式

SSH整合的几种最常见方式 .

局域网网络文件共享常见方式

IP问问：网络欺诈的常见方式

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)