爬虫--Scrapy-持久化存储操作

总体概况

持久化存储操作:
a.    磁盘文件
a)    基于终端指令
i.    保证parse方法返回一个可迭代类型的对象(存储解析到的页面内容)
ii.    使用终端指令完成数据存储到制定磁盘文件中的操作
1.    scrapy crawl 爬虫文件名称 –o 磁盘文件.后缀
b)    基于管道
i.    items:存储解析到的页面数据
ii.    pipelines:处理持久化存储的相关操作
iii.    代码实现流程:
1.    将解析到的页面数据存储到items对象
2.    使用yield关键字将items提交给管道文件进行处理
3.    在管道文件中编写代码完成数据存储的操作
4.    在配置文件中开启管道操作

b.    数据库
a)    mysql
b)    redis
c)    编码流程:
1.    将解析到的页面数据存储到items对象
2.    使用yield关键字将items提交给管道文件进行处理
3.    在管道文件中编写代码完成数据存储的操作
4.    在配置文件中开启管道操作


需求:将爬取到的数据值分别存储到本地磁盘、redis数据库、mysql数据。
1.    需要在管道文件中编写对应平台的管道类
2.    在配置文件中对自定义的管道类进行生效操作


***问题:针对多个url进行数据的爬取
    解决方案:请求的手动发送

猜你喜欢

转载自www.cnblogs.com/foremostxl/p/10085232.html