Python3 Scrapy 框架学习 - 代码天地

Python3 Scrapy 框架学习

其他 2018-09-04 21:44:58 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/chouzhou9701/article/details/80376013

1.安装scrapy 框架

windows 打开cmd输入

pip install Scrapy

2.新建一个项目：

比如这里我新建的项目名为first

scrapy startproject first

然后看一些目录结构

首先在项目目录下有一个scrapy.cfg 文件，这个文件是关于整个项目的一些配置，这个具体后面再说

然后是一个项目同名的文件夹，里面具体文件作用如下：

__init__.py 初始化信息

items.py 作为爬虫项目的数据容器文件，主要用来定义我们要获取的数据

pipelines.py 爬虫项目的管道文件，主要用来对items 里面定义的数据进行进一步的加工处理

settings.py 文件为爬虫项目的设置文件，主要为爬虫项目的一些设置信息

然后下一层的spiders 文件夹里面放置一些爬虫，当然现在里面什么都没有，因为我们还没有新建一个爬虫

这里介绍一下全局命令和项目命令

全局命令：不在scrapy项目里就可以使用的命令

项目命令：必须在scrapy项目中才可以使用的命令

全局命令：

注意网址一定要加上http://

fetch : scrapy fetch 网址（不显示调试信息可以加 --nolog 参数）

runspider: scrapy runspider 爬虫（现在项目中没有爬虫，后面具体再讲）

settings:scrapy settings --get 配置项（后面具体再讲）

shell:scrapy shell 网址（在shell终端里面处理爬下来的数据）

view:scrapy view 网址 (将网址数据趴下来并在浏览器中打开)

项目命令：

bench:scrapy bench(测试本地硬件的性能)

genspider:scrapy genspider 爬虫的文件名定义爬取的域名(scrapy genspider baidu baidu.com)

另外:

-l ：查看可以使用的模板（scrapy genspider -l）

-d：查看模板内容（scrapy genspider -d basic）

-t：使用模板（scrapy genspider -t basic 爬虫名定义爬取的域名）

check:scrapy check 爬虫名（使用合同contract的方式对爬虫进行测试）

crawl:scrapy crawl 爬虫名（启动爬虫，不显示调试信息可以加--nolog参数）

list:scrapy list（显示项目中有哪些爬虫）

edit (这个命令在windows上用不了所以我就不介绍了)

持续更新。。。。。。。。。

猜你喜欢

转载自blog.csdn.net/chouzhou9701/article/details/80376013

Python3 Scrapy 框架学习

Python3 Scrapy爬虫框架(Scrapy/scrapy-redis)

【Python3 爬虫学习笔记】Scrapy框架的使用 3

【Python3 爬虫学习笔记】Scrapy框架的使用 4

python3 + Scrapy爬虫学习之scrapy安装

Mac OSX 安装Python3 和 scrapy框架

Ubuntu安装python3 搭建 scrapy框架

Python3爬虫Scrapy框架常用命令

python3 Scrapy爬虫框架ip代理配置

python爬虫框架——Scrapy学习

python Scrapy 框架学习笔记

Python Scrapy爬虫框架学习

python爬虫框架Scrapy学习

python3利用Scrapy实现爬虫--学习笔记

python3 + Scrapy爬虫学习之创建项目

Python3 Scrapy框架学习三：爬取煎蛋网加密妹子图片(全爬)

Python3 Scrapy框架学习二：爬取豆瓣电影Top250

Python3 Scrapy框架学习四：爬取的数据存入MongoDB

Python3 Scrapy框架学习一：爬取猫眼Top100榜

Python3之Scrapy学习（一）安装与了解scrapy目录

Python学习---爬虫学习[scrapy框架初识]

【python学习】scrapy爬虫框架学习

CentOS 7系统下安装python3并创建python3虚拟环境以及安装scrapy爬虫框架

Python3安装Scrapy

Python3 --- Scrapy入门

Python3 --- Scrapy安装

Python3 Scrapy框架学习五：使用crawl模板爬取豆瓣Top250，并存入MySql、MongoDB

python学习之三 scrapy框架

python学习之scrapy框架篇

Python爬虫框架Scrapy学习笔记原创

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)