Scrapy遇到的坑

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/fengzheku/article/details/53929694
1、出现了403的错误,如下所示:
原因是代理被禁止访问,解决方法:
在settings配置文件里修改不设置代理
DOWNLOADER_MIDDLEWARES = {
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
}
 
  
2、出现了Forbidden by robots.txt的错误
[scrapy] DEBUG: Forbidden by robots.txt: <GET https://movie.douban.com/subject_search?search_text=28%E5%B2%81%E6%9C%AA%E6%88%90%E5%B9%B4>
原因是scrapy是遵守robot协议的,在访问网址前会先访问robot.txt来查看自己是否有权限访问。如果网站不允许被爬,就不能访问。
解决方法,设置不遵守robot协议:
 
  
ROBOTSTXT_OBEY = False

 
  
3、为了启用一个Item Pipeline组件,你必须将它的类添加到 ITEM_PIPELINES 配置
 
  
ITEM_PIPELINES = {
   'tutorial.pipelines.TutorialPipeline': 300,
}

 
 

猜你喜欢

转载自blog.csdn.net/fengzheku/article/details/53929694
今日推荐