Link extractors用于从网页中抓取链接
使用link extractors
引入包:
from scrapy.linkextractors import LinkExtractor
LxmlLinkExtractor
LxmlLinkExtractor是推荐的具有方便过滤选项的链接提取器
__init__函数的参数:
- allow(正则表达式):提取的url必须满足的规则,可选参数
- deny(正则表达式):提取的url都不满则的规则,可选参数
- allow_domains(string或是string的list):提取的url的域名必须是指定域名,可选参数
- deny_domains(string或是string的list):含有该指定值的url会被忽略,可选参数
- restrict_xpath(string或是string的list):通过xpath提取response的一部分,从这一部分提取链接,可选参数(相当于缩小匹配范围)
- restrict_css(string或是string的list):通过css选择器提取response的一部分,从这一部分提取链接,可选参数(相当于缩小匹配范围)
- tags(string或是string的list):考虑提取链接的html标签,默认情况下是(‘a’,‘area’)
- attrs(list):提取链接时需要注意的html标签的属性,默认是(‘href’,)
- canonicalize(boolean):规范化url,最好使用默认值False
- unique(boolean):提取url时,是否要保证url不重复
- process_value(callable):一个函数,它接收从标签和属性中提取的每个值,并且可以修改这个值并返回一个新的值,或者返回None以完全忽略链接。如果没有指定,process_value默认为lambda x: x
- strip(boolean):是否去除提取的url中的空格,默认为true
具体的使用例子文档也没有给出,以后在补上
setting部分不打算在整理了,在需要的时候可以查看:https://doc.scrapy.org/en/latest/topics/settings.html