潭州课堂25班:Ph201805201 爬虫高级 第四课 sclapy 框架 crawispider类 (课堂笔记)

以上内容以 spider 类 获取 start_urls 里面的网页

在这里平时只写一个,是个入口,之后 通过 xpath 生成 url,继续请求,

crawispider 中 多了个  rules 

rules 中的参数

  link_extractor  用来定义需要提取的连接

    allow=()     满足()中正则表达式的 url 会被提取,如果为空则全部匹配,

    deny=()     满足()中正则表达式的 url 不提取,优先级高于allow,

  callback   回调函数

  follow

猜你喜欢

转载自www.cnblogs.com/gdwz922/p/9758309.html