用 scrapy 爬取 xml 源

1.创建项目文件夹:scrapy startproject myxml

2.编辑 items 文件,定义要存储的结构化数据

3.创建一个爬虫文件用于分析 XML 源:

1)scrapy genspider -l 先查询可使用爬虫模板文件

2)scrapy genspider -t xmlfeed myxmlspider sina.com.cn 使用模板 xmlfeed 创建一个名为 myxmlspide 的爬虫文件,允许的  域名设置为  sina.com.cn

3)生成的文件在 spiders 目录下

  • iterator 属性设置使用哪个迭代器
  • itertag 属性设置开始迭代的节点

4.运行:切换到项目文件夹:scrapy crawl myxmlspide --nolog    --nolog 为不显示日志文件

猜你喜欢

转载自blog.csdn.net/zjkpy_5/article/details/84451532
今日推荐