Python爬虫笔记(十三)——Scrapy官方文档阅读——Link Extractors

Link extractors用于从网页中抓取链接

使用link extractors

引入包:

from scrapy.linkextractors import LinkExtractor

LxmlLinkExtractor

LxmlLinkExtractor是推荐的具有方便过滤选项的链接提取器

__init__函数的参数:

  • allow(正则表达式):提取的url必须满足的规则,可选参数
  • deny(正则表达式):提取的url都不满则的规则,可选参数
  • allow_domains(string或是string的list):提取的url的域名必须是指定域名,可选参数
  • deny_domains(string或是string的list):含有该指定值的url会被忽略,可选参数
  • restrict_xpath(string或是string的list):通过xpath提取response的一部分,从这一部分提取链接,可选参数(相当于缩小匹配范围)
  • restrict_css(string或是string的list):通过css选择器提取response的一部分,从这一部分提取链接,可选参数(相当于缩小匹配范围)
  • tags(string或是string的list):考虑提取链接的html标签,默认情况下是(‘a’,‘area’)
  • attrs(list):提取链接时需要注意的html标签的属性,默认是(‘href’,)
  • canonicalize(boolean):规范化url,最好使用默认值False
  • unique(boolean):提取url时,是否要保证url不重复
  • process_value(callable):一个函数,它接收从标签和属性中提取的每个值,并且可以修改这个值并返回一个新的值,或者返回None以完全忽略链接。如果没有指定,process_value默认为lambda x: x
  • strip(boolean):是否去除提取的url中的空格,默认为true

具体的使用例子文档也没有给出,以后在补上
 

setting部分不打算在整理了,在需要的时候可以查看:https://doc.scrapy.org/en/latest/topics/settings.html

猜你喜欢

转载自blog.csdn.net/dhaiuda/article/details/81582617