Scrapy命令行工具

一、任务描述

本实验任务主要对Scrapy命令行工具进行一些基本操作，通过完成本实验任务，要求学生熟练掌握Scrapy命令行工具，并对Scrapy命令行的基本操作进行整理并填写工作任务报告。

二、任务目标

1、掌握Scrapy的命令行操作

三、任务环境

Ubuntu16.04、Python2.7

四、任务分析

Scrapy，Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

五、任务实施

步骤1、环境准备

右击Ubuntu操作系统桌面，从弹出菜单中选择【Open in Terminal】命令打开终端。

通过【cd /home】切换到home目录下。【ls】查看该目录下的所有内容。

图1 切换目录

【mkdir scrapy】在home目录下创建scrapy文件夹。

图2 创建文件夹

步骤2、全局命令

【scrapy startproject [project_name]】用于创建一个名为project_name的Scrapy项目。

图3 创建Scrapy项目

【scrapy settings [options]】在项目中运行时，该命令将会输出项目的设定值，否则输出Scrapy默认设定

图4 项目设定值

【scrapy shell [url]】用来启动Scrapy shell,，URL为可选

图5 启动shell

图6 效果图

【scrapy fetch [url]】使用scrapy下载器下载给定的URL，并将获取到的内容送到标准输出。该命令以Spider下载页面的方式获取页面，如果是在项目中运行，fetch将会使用项目中Spider的属性访问。如果在非项目中运行，则会使用默认Scrapy downloader设定。

图7 获取页面

【scrapy view [url]】在浏览器中打开给定的URL，并以Scrapy spider获取到的形式展示

图8 URL

浏览器打开百度页面。

图9 打开百度

【scrapy version [-v]】输出Scrapy版本，配合-v使用，该命令同时输出Python、Twisted以及平台的信息，方便Bug提交。

图10 Scrapy版本

【scrapy bench】用于运行benchmark测试，测试Scrapy在硬件上的效率
【scrapy runspider spider_file.py】在未创建项目的情况下，运行一个编写好的spider模块。

步骤3、项目命令

【cp -R /home/soft/movie /home/scrapy/】拷贝Scrapy项目

图11 拷贝项目

【scrapy crawl [spider]】用来使用Spider进行爬取

图12 运行项目

查看爬取后的内容。

图13 爬取内容

【scrapy check [spider]】运行contract检查。

图14 检查contract

【scrapy list】列出当前项目中所有可用的spider,每行输出一个spider。

图15 爬虫列表

【scrapy edit [spider]】使用设定的编辑器编辑给定的spider。

图16 编辑爬虫

图17 编辑

【scrapy parse [url] [options]】获取给定的URL并使用相应的Spider分析处理。

【scrapy genspider [-t template] [name] [domail]】可以在当前项
目中创建Spider。

一、任务描述

二、任务目标

三、任务环境

四、任务分析

五、任务实施

猜你喜欢