pyspider常见问题与解决方案

1.HTTPError: HTTP 599: SSL certificate problem: self signed certificate in certi…

这个问题, 我们采用的是忽略证书, 为crawl 方法添加参数 validate_cert = False, 即可

2.css 选择器

pyspider 可以匹配相应的字符串, 支持css 选择器功能, 但是需要注意的是 在chrome 中 对tbody 的渲染支持不好, 因而css 选择器参数中 请不要使用 tbody 标签进行筛选

3.pyspider 数据更新问题
先用pyspider采集并保存A网页数据,然后A网页页面数据更新了,pyspider可以检测到A网页已更新,并重新采集A网页,同时更新之前所保存的A网页的数据吗?
如果不重新抓一遍网页 A,不可能知道 A 已经变了,如果重新抓了,那就等于已经「重新采集」了,重新采集了,当然可以更新之前保存的数据了。

所以你需要定时重新抓一遍。除非有一个网页 B,告诉你网页 A 变了。

4.经常碰到找不到上一次执行项目的数据的时候
由于自己了windows的环境变量,所以自己习惯性的喜欢打开CMD后就直接敲命令行执行 pyspider语句
虽然每次都执行,但是自己却没找到数据。
后来才发现,pyspider命令行执行的时候,数据库data文件会自动在当前目录生成,通过sqlite链接数据库,发现pyspider把脚本数据存在projectDB,但是一直没有找到resultDB数据在哪里

猜你喜欢

转载自blog.csdn.net/miantian180/article/details/79379408