当你在爬取数据的过程中，遇到反爬时，解决的思路是什么？ - 代码天地

当你在爬取数据的过程中，遇到反爬时，解决的思路是什么？

其他 2019-02-18 23:01:45 阅读次数: 0

1.遇到基于请求头的反爬构造合理的 HTTP 请求头（User-Agent,Referer,Cookie）
2.设置cookie (模拟登录获取cookie)
3.降低访问频率
4.动态页面的爬虫(通过ajax请求数据，或者通过JavaScript生成)使用selenuim和phantomjs模拟浏览器获取数据
5.使用IP，网站反爬比较严格的时候，一般会根据用户请求网页的频率来限制IP，所以必要的时候使用IP代理池
6.出现验证码使用打码平台来识别验证码（超级鹰，云打码等）解决方法：
对于基本网页的抓取可以自定义headers,添加headers的数据使用多个代理ip进行抓取或者设置抓取的频率降低一些，动态网页的可以使用selenium + phantomjs 进行抓取对部分数据进行加密的，可以使用selenium进行截图，使用python自带的pytesseract库进行识别，针对于复杂的验证码需要使用第三方打码平台（超级鹰，云打码），但是比较慢最直接的方法是找到加密的方法进行逆向推理（想要超级熟悉js）

猜你喜欢

转载自blog.csdn.net/weixin_34025051/article/details/87234922

当你在爬取数据的过程中，遇到反爬时，解决的思路是什么？

爬取《流浪地球》过程中遇到的反爬虫

爬取CVPR 2018过程中遇到的坑

使用selenium爬取机构化的数据及过程中遇到的问题总结

反爬以及解决思路

python+selenium+requests爬取qq空间相册时遇到的问题及解决思路

python爬虫如何实现对大文件的爬取，以及在爬取过程中对暂停爬取，继续爬取，取消爬取等系列功能的实现！

爬虫过程中遇到的防爬措施

在学习python的过程中，你遇到的最大的困难是什么？

编写一个爬虫的思路，当遇到反爬时如何处理！

网站有反爬机制就爬不了数据？那是你不会【反】反爬

爬取twitter的思路

【Python】【爬虫】爬取小说5000章，遇到的爬虫问题与解决思路

常见的反爬手段和解决思路

爬取图片过程遇到的ValueError: Missing scheme in request url: h 报错与解决方法

scrapy 爬取数据时翻页专栏

用python爬取有道翻译遇到反爬，3分钟反反爬绕过其反爬

爬虫过程和反爬

python爬取网站数据，如何绕过反爬虫策略

在学习python的过程中，遇到的最大的困难是什么？

Ajax数据爬取（2）什么是Ajax

学习如何存储你爬取的数据

爬取动态网页时遇到的问题

Android Jsoup爬取网页数据及其局限性，接口爬取数据的思路

一篇文章让你了解什么是反爬

amazon爬取流程与思路

python爬取大众点评解决字体反爬

python爬取美女写真照的全站异步爬虫，设置了反爬我也要爬给你看

Python3-爬虫~selenium\phantomjs\爬取XX网页电影过程中向下滚动网页问题

python爬虫爬取天气数据并图形化显示以及遇到的问题分析解决

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)