爬虫技巧

1,使用mitmdump抓包时,好像是和charles冲突,所以需要指定端口 mitmdump -p 8888, 指定python脚本是-s XXX.py
2,使用csv写文件会出现空行,with open("douyin.csv", 'w',newline='') as csvfile ,在open中加入参数newline=''就可以了
3,ajax动态渲染也是使用requests访问ajax请求的ip,返回json 数据
4.selenium可以在运行时手动输入验证码
5,可以使用整站下载工具,先下载好需要爬的网站,然后再下载好的网站进行解析,这样就没有封ip的问题了,当然这只适用于不用登陆的网站

  

猜你喜欢

转载自www.cnblogs.com/perfey/p/10420008.html
今日推荐