开始的时候输入一个网站可能报错,错误如下:
在on_star函数中的self.crawl最后加上validate_cert = False
def on_start(self):
self.crawl('https://www.tripadvisor.cn/Attractions-g187147-Activities-Paris_Ile_de_France.html#ATTRACTION_SORT_WRAPPER', callback=self.index_page, validate_cert = False)
保存以后一定要回复到这种状态再去执行
如果上述方法还不行,再参考下面方法
即在index_page函数后面加上defvalidate_cert=False
def index_page(self, response):
for each in response.doc('a[href^="http"]').items():
self.crawl(each.attr.href, callback=self.detail_page, defvalidate_cert=False)