CrawSpider
全站爬取利器
CrawSpider 是 Spider的一个子类
使用流程
- 终端cd 目录
scrapy startproject 工程名
(创建项目) - 终端cd到下面根目录
scrapy genspider chouti -t 爬虫名 起始url
目录解析
class ChoutiSpider(CrawlSpider):
name = 'chouti'
# allowed_domains = ['dig.chouti.com']
start_urls = ['http://dig.chouti.com/']
# 实例化 链接提取器对象
# 【根据正则提取链接】提取指定url
# allow参数: 正则表达式
link = LinkExtractor(allow=r'/all/hot/recent/\d+')
rules = (
# 实例化一个 规则解析器对象
# 规则解析器接收到链接提取器的链接,后对链接发起请求,获取内容根据规则进行解析
# follow参数:是否自动在 被提取的页面中继续提 (自动去重)
Rule(link, callback='parse_item', follow=True),
)
def parse_item(self, response):
print('开始解析', response)
# 利用 response.xpath()进行解析