Scrapy基本操作流程 - 代码天地

Scrapy基本操作流程

其他 2018-06-23 12:13:13 阅读次数: 2

一、创建项目

scrapy startproject myfirstpro (myfirstpro为爬虫项目的名称可以中自行命名)
命令行切换到scrapy工程目录 scrapy genspider ‘name’ ‘http://url’ 创建spider文件

文件详解

爬虫配置文件 settings.py

BOT_NAME 命名爬虫的名称执行爬虫的时候使用此名字
USER_AGENT 伪造成浏览器访问

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'

ROBOTSTXT_OBEY 是否遵守robots协议一般选择False

ROBOTSTXT_OBEY = False

DOWNLOAD_DELAY表示对同一个站点抓取延迟

DOWNLOAD_DELAY = 1 表示1秒抓取一次

CONCURRENT_REQUESTS_PER_DOMAIN表示对同一个站点并发有多少个线程抓取

CONCURRENT_REQUESTS_PER_DOMAIN= 1

CONCURRENT_REQUESTS_PER_IP
ITEM_PIPELINES 管线

爬虫数据类型文件 items.py

定义需要爬取内容的数据格式

爬虫储存文件 pipelines.py

执行保存数据的操作，将Item的数据保存
需要在settings.py中pipelines的使用

二、创建爬虫程序

在项目目录下spiders文件夹中创建爬虫
“`
import scrapy #导入爬虫依赖库
class mySpider(scarpy.Spider):
name=’spider’ #爬虫名称，当此名称与settings的BOT_NAME相同时执行此爬虫
start_urls=[‘http://www.baidu.com‘]#起始url地址

三、启动爬虫

scrapy crawl 爬虫名称

猜你喜欢

转载自blog.csdn.net/u014258362/article/details/80676010

Scrapy基本操作流程

scrapy操作流程

scrapy基本操作

scrapy框架爬虫基本流程

scrapy 使用的基本流程和例子

浅析Scrapy框架运行的基本流程

scrapy基本的流程糗事百科

Scrapy框架爬虫基本使用流程

scrapy爬虫教程摘要（一）——基本流程

# 二(2.scrapy)Scrapy基本流程走通

git的基本操作流程

Git基本操作流程

django的基本操作流程

Git 基本操作流程

JDBC操作基本流程

vue 基本操作流程

爬虫之scrapy--基本操作

Scrapy 安装介绍以及基本操作

python scrapy 基本操作演示代码

Python爬虫 - scrapy框架的基本操作

文件操作的基本流程(1)

git的操作流程基本使用

scrapy流程

scrapy爬虫框架 (1. Scrapy的基本介绍、使用流程、分组打印、pipelines（管道）使用）

Scrapy入门：简单爬虫项目梳理整个框架操作流程

python 爬虫框架scrapy的安装以及基本操作

Mongdb的安装和scrapy链接Mongodb的基本操作

python 3.0 文件操作基本流程

EGit和SourceTree基本操作流程

GIT的基本操作命令与使用流程

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)