python3利用Scrapy实现爬虫--学习笔记2 常用配置

scrapy 的配置在项目目录下的 setting.py 文件中


配置并发数量,增加执行效率

CONCURRENT_REQUESTS = 30

设置下载延迟(防止请求同时到达服务器,给服务器造成压力,同时避免被ban)

DOWNLOAD_DELAY = 0.25

配置请求头部,针对反爬虫的网站

DEFAULT_REQUEST_HEADERS = {
    "User-Agent": Agent,
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'
}

请求失败的情况下scrapy 提供了一个从新请求的中间件

DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.retry.RetryMiddleware': 80
}
RETRY_TIMES = 100

RETRY_TIMES 是指的从新请求的次数


自动限速(不限速有可能会被ban)

AUTOTHROTTLE_ENABLED = True


猜你喜欢

转载自blog.csdn.net/wuchenlhy/article/details/79923305
今日推荐