1,
2,在ubuntu安装pyspider如果出现pycul的问题
首先执行命令:sudo apt-get install libssl-dev libcurl4-openssl-dev python-dev
然后执行:apt-get install libxml2-dev libxslt1-dev python-dev
异常:VauleError: Invalid configuration
解决方法:
pip uninstall wsgidav
pip install wsgidav==2.4.1
widows:
phantomjs 解压出phantomjs.exe 之后复制到python根目录
Ubuntu:
直接通过 sudo apt-get install phantomjs
requests库
scrapy框架
pyspider框架 有界面的
删除pyspider项目?
第一种:status 改成stop;group 改成 delete 24小时后删除。
第二种:强制删除,找到data目录,直接删除。
创建项目 create按钮创建
DEBUG/RUNNING 状态下爬虫才能运行
调试页面
方法:
on_start 入口方法 点击run的时候默认会调用
crawl 生成一个新的爬取请求类似于scrapy.Request 接受的参数是url和回调函数
@every(minutes=24 * 60)告诉调度器 每天只需一次这个方法
@config(age=10 * 24 * 60 * 60)告诉调度器 这个请求过期时间是10天
def __init__(self):
"""
和数据库建立连接 mongo mysql
"""
connection = pymongo.MongoClient(host='',post=27017)
client = connection['v2ex']
self.db = client['items']
on_result 默认会调用的存储数据的方法 可以自己重写
phantomjs 浏览器
phantomjs.exe放到python的根目录下