步骤:
1、在编译器(我用的Pycharm)里新建文件夹,名称随意
2、从终端(Anaconda Prompt)中进入所创建的文件夹(Anaconda Prompt中切换C盘和D盘方法见上篇博客)
3、在该文件夹中创建scrapy框架,即执行命令:
scrapy startproject Name
其中,Name是自己命名的项目名
4、在编译器中更改该文件夹中新生成的settings文件:
第22行,把 ROBOTSTXT_OBEY=True 改为 False(这行代码表示是否遵循爬虫协议,如果是Ture的可能有些内容无法爬取)
第67到69行代码解注释,并把300改为1(这是优先级设置)
5、在Name文件夹中的spider文件夹下进行爬虫操作,因此在Anaconda Prompt中更改当前路径,进入到spider文件夹
6、创建爬虫文件,即在Anaconda Prompt中执行命令:
scrapy genspider baidu_spider baidu.com
其中,baidu_spider为新建的python文件名称,可以随意更改,但不能与项目名相同,后面的baidu.com是准备爬取的网站的url
7、在编译器中打开新建的baidu_spider文件,之后所有的爬取操作都由这个文件控制(主要由parse函数控制)。
补全baidu_spider.py中的url,更改parse中的内容(具体看需要,可以直接print(response.body)输出网页源码或者其他任意操作都可)
8、开始爬取,即在Anaconda Prompt中执行代码:
scrapy crawl baidu_spider