第十六节：Scrapy爬虫框架之项目创建spider文件数据爬取 - 代码天地

第十六节：Scrapy爬虫框架之项目创建spider文件数据爬取

其他 2019-04-12 15:14:40 阅读次数: 0

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。其可以应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取所设计的，也可以应用在获取API所返回的数据或者通用的网络爬虫。

Scrapy原理图如下：

1、创建Scrapy项目：进入你需要创建scrapy项目的文件夹下，输入scrapy startproject BLZX(此处BLZX为爬虫项目名称)

项目创建完成后出现一个scrapy框架自动给你生成的爬虫目录

2、进入创建好的项目当中创建spider爬虫文件blzxSpider：

cd BLZX

scrapy genspider blzxSpider image.so.com (其中image.so.com为爬取数据的链接)

到此我们的scrapy爬虫项目已经创建完成，目录如下：

创建好了blzxSpider爬虫文件后scrapy将会在改文件当中自动生成如下代码，我们就可以在这个文件当中进行编写代码爬取数据了。

# -*- coding: utf-8 -*-
import scrapy


class BlzxspiderSpider(scrapy.Spider):
    name = 'blzxSpider'
    allowed_domains = ['image.so.com']
    start_urls = ['http://image.so.com/']

    def parse(self, response):
        pass

3、爬取360图片玩转的图片，此时我们需要编写blzxSpiser文件进行爬取360图片

代码如下

import scrapy
import json

class BoleSpider(scrapy.Spider):
    name = 'boleSpider'

    def start_requests(self):
        url = "https://image.so.com/zj?ch=photography&sn={}&listtype=new&temp=1"
        page = self.settings.get("MAX_PAGE")
        for i in range(int(page)+1):
            yield scrapy.Request(url=url.format(i*30))

    def parse(self,response):
        photo_list = json.loads(response.text)
        for image in photo_list.get("list"):
            id = image["id"]
            url = image["qhimg_url"]
            title = image["group_title"]
            thumb = image["qhimg_thumb_url"]
            print(id,url,title,thumb)

抓取的结果为

最后，我们已经将360图片的信息已经抓取下来了并打印在的控制台当中。但是我们需要把数据给下载下来，并且进行存储，所以在下一节当中会对item.py文件进行讲解。

猜你喜欢

转载自www.cnblogs.com/zhaco/p/10696091.html

第十六节：Scrapy爬虫框架之项目创建spider文件数据爬取

第十六节：Scrapy爬虫框架之settings文件详解

Python爬虫之运用scrapy框架将爬取的内容存入文件和数据库

scrapy 爬虫实战----爬取搜房网十六城市房产数据

Scrapy框架中 Spider 子类 CrawlSpider 爬虫进行全站爬取方法

scrapy框架之全站数据的爬取

爬虫系列爬虫的Robots协议请求库之requests库解析库beautifulsoup 爬取汽车之家新闻搭建免费代理池验证码破解模拟自动登录网站 xpath路径 selenium简介与安装 selenium的使用 Scrapy 架构介绍 scrapy 框架的安装与启动 scrapy项目架构与配置文件 Scrapy中response属性以及内容提取爬取数据并解析 Scrapy 持久化

Python笔记：爬虫框架Scrapy之应用实践：命令使用、项目结构、爬取过程分析

Python3使用Scrapy2.4框架爬取数据，多个spider同时执行

Python3使用Scrapy2.4框架爬取数据，多spider指定pipelines配置

简单创建一个scrapy项目,并创建爬百度的spider文件

Python爬虫框架Scrapy之爬取糗事百科大量段子数据

Python爬虫框架Scrapy爬取微博数据

python爬虫框架Scrapy:股票数据爬取

scrapy框架【spider】 scrapy框架之spider

Python 分布式爬虫框架 Scrapy 4-6 编写spider爬取所有文章

scrapy框架之spider

Python爬虫之Scrapy框架系列（14）——实战ZH小说爬取【多页爬取】

爬虫 Scrapy框架"链家爬取"

scrapy--- 爬虫框架爬取图片

创建简单的scrapy项目,并使用它来爬取数据

爬虫框架Scrapy的组件spider

爬虫入门（四）——Scrapy框架入门：使用Scrapy框架爬取全书网小说数据

Python爬虫之Scrapy框架系列（13）——实战ZH小说爬取数据入MySql数据库

Python爬虫——使用Spider实现数据的爬取（一）

Python笔记：爬虫框架Scrapy之Spider的原理

Python笔记：爬虫框架Scrapy之Spider Middleware的使用

创建Scrapy项目，创建spider，运行Scrapy

爬虫入门之Scrapy框架基础框架结构及腾讯爬取(十)

scrapy框架爬虫爬取糗事百科之 Python爬虫从入门到放弃第不知道多少天（1）

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)