爬虫经验 - 代码天地

爬虫经验

其他 2018-08-20 04:32:52 阅读次数: 0

最近实习写了两个爬虫，使用的工具是requests , bs4, selenium + PhantomJS, 这里写一些总结。
1.ajax
通常可以通过分析js文件，找到数据接口，可以直接获取到数据

2.正则表达式re
获取到的json数据格式为：jQuery1910981251106322391_1517453911085({…})就需要用正则表达式来解析数据

3.验证码识别
最普通的思路为：分割图片，灰度二值化转为黑白，与预留图片计算向量
参考:https://www.shiyanlou.com/courses/364

4.登录 session
requests库有Session对象，会在同一个 Session 实例发出的所有请求之间保持 cookie

5.浏览器渲染，使用selenium + PhantomJS，
注意selenium版本要大于2，小于3，因为3以上不支持PhantomJS，PhantomJS安装最好采用源码安装，apt-get得到的版本功能并不全

6.断点重续
断点通常是因为网络请求失败，失败的原因通常为以下几种：
（1）超时
（2）连接太多
（3）selenium
超时通常是因为在requests设置了timeout,
连接太多可以在headers中指定connection：close，
selenium请求出错暂时原因未知。

考虑使用这样的代码：

html = ''
while html == '':
    try:
        html = requests.get('')
    except Exception:
        html = ''
        continue

7.动态IP
有些网站会封IP，需要使用代理，建议可以使用阿布云的代理，使用过感觉还可以，价格略贵，接入可以看接入指南。

8.多线程同步问题
多线程同时读写Excel，会出现乱序问题，可以考虑这样处理，先让多线程将获取到的数据序列化为pkl文件，达到100条后，然后再由另一线程写入到Excel表中。

猜你喜欢

转载自blog.csdn.net/yz764127031/article/details/79225886

浅谈数据采集（爬虫）的一些工作经验

爬虫解码~以及我的一些小经验

Ansbile实战经验

except的实践经验

kafka实战经验

项目管理经验

管理经验

工作经验

又工作经验

所谓工作经验

生活经验技巧

生活经验

CSS 实战经验

PHP 实战经验

总结经验8

centos管理经验

【工作经验记录】

实践经验

mysql工作经验

GitFlow实践经验

GCH实践经验

tx工作经验

linux 实战经验

Kubernetes管理经验

前端工作经验

工作经验积累

个人管理经验

项目实战经验

日常工作经验

项目管理经验的获取

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)