python Scrapy框架2—简单的数据抓取

其他 2019-01-01 12:19:47 阅读次数: 0

版权声明：随意了，开心就好。反正是给大家分享的笔记 https://blog.csdn.net/u011486491/article/details/83628844

python Scrapy框架2—数据抓取

spider中的流程

spider数据抓取

在scrapy框架中，我们通过命令

scrapy crawl itcast

去执行spiders中的python脚本。

这里的itcast 是name中的内容

两种初始化url的方法

1、常量start_urls，并且需要定义一个方法parse（）

start_urls = [  #另外一种写法，无需定义start_requests方法
    'http://lab.scrapyd.cn/page/1/',
    'http://lab.scrapyd.cn/page/2/',
]

2、直接定义一个方法：star_requests()

def start_requests(self):
    urls = [ #爬取的链接由此方法通过下面链接爬取页面
        'http://lab.scrapyd.cn/page/1/',
        'http://lab.scrapyd.cn/page/2/',
    ]
    for url in urls:
        yield scrapy.Request(url=url, callback=self.parse)

处理数据

def parse(self, response):
    self.log(response.url)
    page = response.url.split("/")[-2]    
    #根据上面的链接提取分页,如：/page/1/，提取到的就是：1
    filename = 'mingyan-%s.html' % page    
    #拼接文件名，如果是第一页，最终文件名便是：mingyan-1.html
    with open(filename, 'wb') as f:        
        #python文件操作，不多说了；
        f.write(response.body)             
        #刚才下载的页面去哪里了？response.body就代表了刚才下载的页面！
    self.log('保存文件: %s' % filename)      # 打个日志

这里的response就是请求到的数据

猜你喜欢

转载自blog.csdn.net/u011486491/article/details/83628844

python Scrapy框架2—简单的数据抓取

python网络爬虫实战-Scrapy,深入理解scrapy框架，解决数据抓取过程

Python爬虫抓取框架：Scrapy的架构

python爬虫之利用scrapy框架抓取新浪天气数据

Python笔记：爬虫框架Scrapy抓取数据入库及图片下载流程处理

Python笔记：爬虫框架Scrapy抓取数据案例实战解析包含项目代码

Python框架篇：结构化的网页抓取框架-Scrapy

python：爬虫：框架：scrapy：实现抓取股票信息（实例编写）

python3爬虫Scrapy框架解决URL被重定向无法抓取到数据问题，显示301/302状态码

python scrapy框架的安装和简单使用

Python爬虫 --- 2.3 Scrapy 框架的简单使用

Python爬虫框架scrapy简单学习

Python爬虫5.1 — scrapy框架简单入门

python3 简单抓取图片2

Python丨scrapy抓取高考派大学数据

Python丨scrapy抓取高考派大学数据

【Python_Scrapy学习笔记（十三）】基于Scrapy框架的图片管道实现图片抓取

Python爬虫--使用scrapy框架(2)

14、Python Scrapy Web爬虫框架【2】

python爬虫框架——scrapy(2) 实战练习

python简单抓取页面数据实例

【Python_Scrapy学习笔记（十四）】基于Scrapy框架的文件管道实现文件抓取(基于Scrapy框架实现多级页面的抓取)

数据之路 - Python爬虫 - Scrapy框架

#第6篇分享：python-scrapy框架爬虫-开启数据收集新时代（2）

python初试——简单的抓取

Python爬虫框架scrapy抓取旅行家网所有游记！从此出游不发愁！

Python使用Scrapy框架抓取LOL全部英雄皮肤图片（手机APP）

2018 - Python 3.7 爬虫之利用 Scrapy 框架抓取百度图片并保存（三）

Python爬虫框架Scrapy实战 - 抓取BOSS直聘招聘信息

Python 中scrapy 的框架安装以及简单介绍

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)