scrapy爬虫框架学习

找到一个有关历史名人的网站:http://ren.bytravel.cn/  网站地区分门别类很整齐,找到上饶地区,在一个名叫basic的爬虫代码里,start_url 里填写的就是这个网址:http://ren.bytravel.cn/Celebrity/index408_list.html

用scrapy爬取其中上饶籍的历史名人

首先,scrapy startproject shangraorenwucrawl 创建了一个scrapy项目

然后,这个scrapy项目的文件夹就建立好了,进入其中,写item.py 这个文件说明了你要爬取的item,这个item就像python里的字典,或者就像一张二维表,你定义要爬取的内容

然后,写setting.py 这个文件是scrapy的一些设置,在文件末尾添加了几行设置爬虫以浏览器名义执行request的语句,还有设置文件格式utf-8         等等

然后,在spider目录里新建爬虫py,你可以在命令行里,scrapy genspider basic web,这个basic爬虫是scrapy自带的模板,web是你允许爬虫去爬的域名,比如:ren.bytravel.cn 

然后,写这个basic爬虫喽,找xpath,写爬虫

然后,写好爬虫,scrapy crawl basic 运行这个爬虫,你可以在命令行后面加 -s CLOSESPIIDER_ITEMCOUNT=60  这个是设置 可以加 -o item.json 这样就把输出保存为json文件,当然也可以保存为csv文件

Duang的一下这个爬虫就OK了

GitHub地址:https://github.com/maoyuqing/shangraorenwucrawl

猜你喜欢

转载自www.cnblogs.com/MaoYQ/p/9299223.html