Scrapy start_requests

Scrapy 中的起始请求 通过start_requests 函数 实现  源码如下:

def start_requests(self):
    for url in self.start_urls:
        yield Request(url, dont_filter=True)

起始请求中url列表如果有重复的url 这里是不做去重处理的

如果携带参数 dont_filter=True,start_urls 中的 URL 在首次请求时不会加入过滤列表中,相同 url 再次请求时由于不存在于过滤列表中,会导致重复请求。

我们可以根据自己的需要 重写此方法,来实现起始请求的其他功能 或者加入头部信息  或者是其他参数 等等

猜你喜欢

转载自blog.csdn.net/RedPintings/article/details/81911718