scrapy简单爬虫（一） - 代码天地

scrapy简单爬虫（一）

其他 2018-07-11 14:41:09 阅读次数: 0

在terminal中

1.To create scrapy project : scrapy startproject ITcast

2. cd the path of folder spider , and input the command scrapy genspider itcast " itcast.cn"

（1）name = 'itcast'： 爬虫识别名称，必须唯一
（2）allowed_domains = ['itcast.cn'] ：

搜索的域名范围，爬虫的约束区域，爬虫只爬取这个域名下的网页，不存在的URL会被呼略

（3）start_urls = ['http://itcast.cn/']：

爬取的URL元祖列表，爬虫从这里开始抓取数据，所以，第一次下载的数据将会从这些urls开始，

其他子url将会从这些起始URL中继承性生成

（4）def parse(self, response)：解析的方法，每个初始url完成下载后将被调用，调用的时候传入每一个URL传回的Response对象来作为唯一参数，主要作用如下：

负责解析返回的网页数据（response.body），提取结构化数据（生成item）

生成需要下一页的URL请求

当python版本为python2.x时候，需要添加

import sys

reload(sys)

sys.setdefaultencoding("utf-8")

猜你喜欢

转载自blog.csdn.net/lx5090110/article/details/80703622

scrapy简单爬虫（一）

scrapy专利爬虫（一）——scrapy简单介绍

做一个简单的scrapy爬虫

scrapy爬虫框架简单入门实例（一）

scrapy 简单爬虫实验

Scrapy爬虫简单实例

scrapy爬虫简单案例

利用scrapy框架实现一个简单的爬虫项目

Scrapy爬虫（一）

一爬虫框架(scrapy)

scrapy爬虫框架(一)

Python爬虫_Scrapy(一)

scrapy爬虫框架简单实例

通过scrapy实现简单爬虫

Scrapy框架简单爬虫demo

Python爬虫----Scrapy的简单使用

超简单的Scrapy爬虫框架

基于Scrapy框架的简单爬虫

scrapy爬虫框架（一）：scrapy框架简介

爬虫框架Scrapy 之(一) --- scrapy初识

一、Scrapy的简单使用

Scrapy爬虫自学笔记（一）

Python 爬虫（一）scrapy框架

爬虫框架Scrapy学习（一）

爬虫框架scrapy入门（一）

python 爬虫 scrapy框架（一）

爬虫Scrapy框架学习（一）

爬虫框架之Scrapy(一)

Python爬虫之Scrapy（一）

Scrapy爬虫框架学习一

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)