# 二(2.scrapy)Scrapy基本流程走通

文章经过学习,如有错误,欢迎指出

创建我们的第一个spider

C:\Users\Alpaca\Desktop\scrapy\1-伯乐在线\firstspider>scrapy genspider myfirstspider www.baidu.com
Created spider 'myfirstspider' using template 'basic' in module:
  firstspider.spiders.myfirstspider

不同种类的spider

运行创建爬虫的命令时,加入-t 我们会发现他有四种不同的模式

常用的有两种 basic和crawl

文章之后会对这两种模板进行介绍

当我们创建完成一个spider的时候

class MyfirstspiderSpider(scrapy.Spider):
    name = 'myfirstspider'
    allowed_domains = ['www.baidu.com']
    start_urls = ['http://www.baidu.com/']

    def parse(self, response):
        pass

这里用的是basic模板 ,我会在第三篇博客上介绍crawl的模板(相当方便)

他是继承自spider的

name表示我们蜘蛛的名字 在之后我们启动项目会用到他 比如

scrapy crawl myfirstspider

后面的两个参数其实没什么用,我们完全可以自己定义

start_urls表示你的第一个进入的网站

scrapy shell

我们做爬虫的时候,大致的流程为,爬取页面。得到相应后用selector(xss,xpath,beautifulsoup)等工具对页面筛选。但是我们不可能一边又一遍的去运行我们的程序。这个时候我们可以使用scrapy shell命令,在终端进行 测试

scrapy shell www.baidu.com

小心上当

当我们在用css或者xpath去筛选页面的时候,我们要知道,有一些页面是又js.css3.ajax渲染而成的,因此我们需要得到一个渲染之后的页面,这个时候请使用

view(response)

猜你喜欢

转载自blog.csdn.net/llh_e/article/details/80530084