133 scrapy框架

主要内容:

1 在scrapy框架中获取需要的字符串的方法:

  img_url = 'http://pic.netbian.com'+li.xpath("./a/span/img/@src").extract_first()   

  img_url = 'http://pic.netbian.com'+li.xpath("./a/span/img/@src")[0]extract()

2 持久化存储的两种方法:

  1) 基于终端命令的存储:    scrapy  crawl  文件名 -o   文件路径(-content.csv)

  2) 基于管道的存储

      可以存在本地; mysql数据库, 或者redis数据库

      代码:  爬虫 第五天

3 yield命令:

  1) 向管道提交item对象

  2) 手动发请求

猜你喜欢

转载自www.cnblogs.com/gyh412724/p/10269080.html
133