Scrapy之一——创建简单项目

相比自己写爬虫,使用Scrapy框架可以帮我们简化项目逻辑设计,我们不必费力去考虑定义什么类实现什么功能,只需要在项目已有的文件中添加相应的内容。也免去代码性能设计的麻烦,使用Scrapy可以轻松获得高性能高并发的爬取进程,不必进行专门的并发设计。

在安装完Scrapy框架后,开始一个简单项目以测试。

1.创建项目

在Windows操作系统下,打开DOS,进入到项目目录中。

输入命令:

scrapy startproject hello   'hello可以替换成自定义的项目名称'

项目就创建完成了

2.创建爬虫文件

由于我们创建的爬虫项目中并不存在实际共工作的爬虫文件,我们需要单独创建该文件。

DOS下进入项目目录

输入命令:

scrapy genspider demo www.baiduc.com   'demo是爬虫名,可以自定义' 'www.baidu.com可替换为要爬取的网址'

在项目的spiders中就会多了一个名为demo.py的文件。

3.配置爬虫文件

allowed_domains    --要爬取的网站,若设置此项,该爬虫只能爬取该网站下的网页
allowed_domains = ['www.baidu.com']
start_urls         --爬取的开始网址
start_urls = ['http://www.baidu.com/']
def parse(self, response):   ----返回函数,response是返回值
    def parse(self, response):
        print(response.url)
        pass

4.运行爬虫

通过命令行来运行

scrapy crawl demo 'demo 为爬虫名'

猜你喜欢

转载自blog.csdn.net/ScapeD/article/details/81335586
今日推荐