Scrapy基本操作流程

一、创建项目

scrapy startproject myfirstpro (myfirstpro为爬虫项目的名称可以中自行命名)
命令行切换到scrapy工程目录 scrapy genspider ‘name’ ‘http://url’ 创建spider文件

文件详解

爬虫配置文件 settings.py

BOT_NAME 命名爬虫的名称 执行爬虫的时候使用此名字
USER_AGENT 伪造成浏览器访问

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'

ROBOTSTXT_OBEY 是否遵守robots协议 一般选择False

ROBOTSTXT_OBEY = False

DOWNLOAD_DELAY表示对同一个站点抓取延迟

DOWNLOAD_DELAY = 1 表示1秒抓取一次

CONCURRENT_REQUESTS_PER_DOMAIN表示对同一个站点并发有多少个线程抓取

CONCURRENT_REQUESTS_PER_DOMAIN= 1 

CONCURRENT_REQUESTS_PER_IP
ITEM_PIPELINES 管线

爬虫数据类型文件 items.py

定义需要爬取内容的数据格式

爬虫储存文件 pipelines.py

执行保存数据的操作,将Item的数据保存
需要在settings.py中pipelines的使用

二、创建爬虫程序

在项目目录下spiders文件夹中创建爬虫
“`
import scrapy #导入爬虫依赖库
class mySpider(scarpy.Spider):
name=’spider’ #爬虫名称,当此名称与settings的BOT_NAME相同时执行此爬虫
start_urls=[‘http://www.baidu.com‘]#起始url地址

三、启动爬虫

scrapy crawl 爬虫名称

猜你喜欢

转载自blog.csdn.net/u014258362/article/details/80676010