scrapy简单使用方法

步骤:

1、在编译器(我用的Pycharm)里新建文件夹,名称随意

2、从终端(Anaconda Prompt)中进入所创建的文件夹(Anaconda Prompt中切换C盘和D盘方法见上篇博客)

3、在该文件夹中创建scrapy框架,即执行命令:

scrapy startproject Name

其中,Name是自己命名的项目名 

4、在编译器中更改该文件夹中新生成的settings文件:

     第22行,把 ROBOTSTXT_OBEY=True  改为  False(这行代码表示是否遵循爬虫协议,如果是Ture的可能有些内容无法爬取)

     第67到69行代码解注释,并把300改为1(这是优先级设置)

5、在Name文件夹中的spider文件夹下进行爬虫操作,因此在Anaconda Prompt中更改当前路径,进入到spider文件夹

6、创建爬虫文件,即在Anaconda Prompt中执行命令:

scrapy genspider baidu_spider baidu.com

其中,baidu_spider为新建的python文件名称,可以随意更改,但不能与项目名相同,后面的baidu.com是准备爬取的网站的url

7、在编译器中打开新建的baidu_spider文件,之后所有的爬取操作都由这个文件控制(主要由parse函数控制)。

     补全baidu_spider.py中的url,更改parse中的内容(具体看需要,可以直接print(response.body)输出网页源码或者其他任意操作都可)

8、开始爬取,即在Anaconda Prompt中执行代码:

scrapy crawl baidu_spider
发布了21 篇原创文章 · 获赞 21 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/qq_38813668/article/details/104218828