网络爬虫需要注意的问题

熟悉HTTP协议:请求方式(get、post)、传参方式
代理ip
设置请求头:用户信息等
需要登录:注册账号
post、ajax:浏览器自动化工具获取
js加载:浏览器自动化工具获取
加密:浏览器自动化工具获取
验证码:使用全球鹰,云打码 api
自定义字体:有移动端就去移动端、观察规则
百度文库:文字选不中属于css功能,根据css具体情况分析

猜你喜欢

转载自www.cnblogs.com/Nxx-clara/p/11081763.html