Scrapy安装以及目录结构介绍 - 代码天地

Scrapy安装以及目录结构介绍

编程语言 2019-01-21 18:17:02 阅读次数: 0

一、Scrapy安装

如果顺利的话，直接使用下面的命令即可安装。

方法1：使用pip安装：pip install Scrapy。

方法2（推荐）：使用国内豆瓣源进行安装，非常快：pip install -i https://pypi.douban.com/simple/ scrapy

二、Scrapy目录结构介绍

接下来以爬取某人的知乎回答内容为例来讲述Scrapy各目录的作用。

2.1、创建项目

在开始爬取之前，我们必须创建一个新的Scrapy项目。进入我们打算存储代码的目录中，运行下列命令:

scrapy startproject Demo

该命令将会创建包含下列内容的Demo目录：

扫描二维码关注公众号，回复： 5011064 查看本文章

这些文件分别是:

1）scrapy.cfg: 项目的配置文件，现在可以先忽略。

2）Demo/: 该项目的python模块。

3）Demo/items.py: 项目中的item文件。

Item 是保存爬取到的数据的容器；其使用方法和python字典类似，并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。

类似在ORM中做的一样，可以通过创建一个 scrapy.Item 类，并且定义类型为 scrapy.Field 的类属性来定义一个Item。

4）Demo/pipelines.py: 项目中的pipelines文件。

Scrapy提供了pipeline模块来执行保存数据的操作。在创建的 Scrapy 项目中自动创建了一个 pipeline.py 文件，同时创建了一个默认的 Pipeline 类。比如我们要把item提取的数据可以保存到mysql数据库。

5）Demo/settings.py: 项目的设置文件。

settings.py是Scrapy中比较重要的配置文件，里面可以设置的内容非常之多。

6）Demo/spiders/: 放置spider代码的目录。

这个很好理解，如下图，我们后面的示例，爬取豆瓣、微博、知乎的爬虫代码文件都存放在这个文件夹下的。

7）Demo/middlewares.py：中间件。

参考：https://www.jianshu.com/p/6df878054091

猜你喜欢

转载自blog.csdn.net/Floating__dream/article/details/86572468

Scrapy安装以及目录结构介绍

Python 分布式爬虫框架 Scrapy 4-2 Scrapy安装以及目录结构介绍

安装Scrapy以及基本介绍

Scrapy 安装介绍以及基本操作

Tomcat 目录结构以及相关规范的介绍安装Java和Tomcat

Linux的安装、目录结构介绍，以及Xshell5远程连接

day103-scrapy-scrapy 介绍、 scrapy安装、创建运行、目录介绍、settings介绍、爬取抽屉新闻、scrapy的数据解析（重点）、scrapy的持久化存储（重点）

Centos根目录结构以及各个结构介绍

httpd安装和目录结构介绍

Tomcat安装及其目录结构介绍

安装 Hadoop 以及 Hadoop 的目录结构

Python 中scrapy 的框架安装以及简单介绍

vue的介绍、vue环境安装以及项目目录介绍

Scrapy项目的目录结构

Struts2.5.20下载以及目录结构介绍

Linux磁盘分区以及系统目录结构介绍

03：hadoop目录结构以及web UI介绍

scrapy框架介绍及安装

Scrapy:安装介绍

[scrapy] pycharm开发scrapy - scrapy项目目录介绍

python爬虫随笔-scrapy框架(1)——scrapy框架的安装和结构介绍

python爬虫系列2-------Scrapy目录结构介绍与配置详解

linux目录结构介绍

JeeSite 目录结构介绍

linux 目录结构介绍

uboot目录结构介绍

centOS目录结构介绍

Nuxt 目录结构介绍

Linux的目录结构介绍

Tomact目录结构的介绍

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)