クラスMyCrawler(RedisCrawlSpider):
"" "RedisのキューからURLを読み込むスパイダー。(myspider:start_urlsを)" ""
名= 'mycrawler_redis'
redis_key = 'mycrawler:start_urls'
ルール=(
#は、すべてのリンクを辿る
ルールを(LinkExtractor()、コールバック= 'parse_page'、=真に従う)、
)
デフ__init __(自己、* argsを、** kwargsから):
#は動的に許可されているドメインのリストを定義します。
ドメイン= kwargs.pop( 'ドメイン'、 '')
self.allowed_domains =フィルタ(なし、domain.split( ''))
、スーパー(MyCrawler、自己).__のinit __(* argsを、** kwargsから)
デフparse_page(自己、レスポンス):
リターン{
[
'URL':response.url、
}
scrapy_redis設定
おすすめ
転載: www.cnblogs.com/wangdongpython/p/10990629.html
ランキング