相比自己写爬虫,使用Scrapy框架可以帮我们简化项目逻辑设计,我们不必费力去考虑定义什么类实现什么功能,只需要在项目已有的文件中添加相应的内容。也免去代码性能设计的麻烦,使用Scrapy可以轻松获得高性能高并发的爬取进程,不必进行专门的并发设计。
在安装完Scrapy框架后,开始一个简单项目以测试。
1.创建项目
在Windows操作系统下,打开DOS,进入到项目目录中。
输入命令:
scrapy startproject hello 'hello可以替换成自定义的项目名称'
项目就创建完成了
2.创建爬虫文件
由于我们创建的爬虫项目中并不存在实际共工作的爬虫文件,我们需要单独创建该文件。
DOS下进入项目目录
输入命令:
scrapy genspider demo www.baiduc.com 'demo是爬虫名,可以自定义' 'www.baidu.com可替换为要爬取的网址'
在项目的spiders中就会多了一个名为demo.py的文件。
3.配置爬虫文件
allowed_domains --要爬取的网站,若设置此项,该爬虫只能爬取该网站下的网页
allowed_domains = ['www.baidu.com']
start_urls --爬取的开始网址
start_urls = ['http://www.baidu.com/']
def parse(self, response): ----返回函数,response是返回值
def parse(self, response):
print(response.url)
pass
4.运行爬虫
通过命令行来运行
scrapy crawl demo 'demo 为爬虫名'