scrapy相关-数据持久化

持久化存储操作:

磁盘文件

基于终端指令

  1. 保证parse方法返回一个可迭代类型的对象(存储解析到的页面内容)
  2. 使用终端指令完成数据存储到制定磁盘文件中的操作
    • scrapy crawl 爬虫文件名称 –o 磁盘文件.后缀

基于管道

  1. items:存储解析到的页面数据
  2. pipelines:处理持久化存储的相关操作
  3. 代码实现流程:
    1. 将解析到的页面数据存储到items对象
    2. 使用yield关键字将items提交给管道文件进行处理
    3. 在管道文件中编写代码完成数据存储的操作
    4. 在配置文件中开启管道操作

数据库

mysql

redis

编码流程:

  1. 将解析到的页面数据存储到items对象
  2. 使用yield关键字将items提交给管道文件进行处理
  3. 在管道文件中编写代码完成数据存储的操作
  4. 在配置文件中开启管道操作

注意

  1. 需要在管道文件中编写对应平台的管道类
  2. 在配置文件中对自定义的管道类进行生效操作

***问题:针对多个url进行数据的爬取
解决方案:请求的手动发送

发布了64 篇原创文章 · 获赞 46 · 访问量 3万+

猜你喜欢

转载自blog.csdn.net/weixin_42737442/article/details/94361232