scrapy_redis設定

クラスMyCrawler(RedisCrawlSpider):
"" "RedisのキューからURLを読み込むスパイダー。(myspider:start_urlsを)" ""
名= 'mycrawler_redis'
redis_key = 'mycrawler:start_urls'

ルール=(
は、すべてのリンクを辿る
ルールを(LinkExtractor()、コールバック= 'parse_page'、=真に従う)、


デフ__init __(自己、* argsを、** kwargsから):
は動的に許可されているドメインのリストを定義します。
ドメイン= kwargs.pop( 'ドメイン'、 '')
self.allowed_domains =フィルタ(なし、domain.split( ''))
スーパー(MyCrawler、自己).__のinit __(* argsを、** kwargsから)

デフparse_page(自己、レスポンス):
リターン{
[
'URL':response.url、
}

おすすめ

転載: www.cnblogs.com/wangdongpython/p/10990629.html