手动反爬虫:原博地址
知识梳理不易,请尊重劳动成果,文章仅发布在CSDN网站上,在其他网站看到该博文均属于未经作者授权的恶意爬取信息
如若转载,请标明出处,谢谢!
1. 文件网址
首先需要找到要爬取的文件对应的地址,scrapy官网查找过没有找到相关的示例,于是就进行了百度搜索,这里借鉴CSDN中Programer Cat 博主的数据,对应的数据网址为:特派员数据.csv
2. 项目爬取
2.1 新建项目
创建一个csvfeed_demo项目的爬虫文件夹
scrapy srartproject csvfeed_demo
cd ./csvfeed_demo #接着接入创建好的文件夹下
2.2 创建csvfeed爬虫模板
紧接着上一个指令进行操作
scrapy genspider -t csvfeed demo gzdata.gov.cn
2.3 修改items.py文件
根据要爬取的csv文件中的信息,可以发现是四列,因此就对应四个字段
import scrapy
class CsvfeedDemoItem(scrapy.Item):
name = scrapy.Field()
searchField = scrapy.Field()
service = scrapy.Field()
specialty = scrapy.Field()
2.4 修改demo.py文件
进行爬虫内容代码的编写,模板中有详细的书写示范,这里根据自己的数据格式进行改进即可
from scrapy.spiders import CSVFeedSpider
from ..items import CsvfeedDemoItem
#注意这里导入刚刚修改的items.py文件中的类名称(模块)
class DemoSpider(CSVFeedSpider):
name = 'demo'
allowed_domains = ['gzdata.gov.cn']
#文件的网址
start_urls = ['http://gzopen.oss-cn-guizhou-a.aliyuncs.com/科技特派员.csv']
#四个字段,注意不要随便改模板的参数,这里就是headers,改成别的变量就报错
headers = ['name', 'SearchField', 'Service', 'Specialty']
#csv文件,就是以逗号分隔的
delimiter = ','
#每行的标识就是换行符
quotechar = '\n'
#这里设置一下字体的编码,不然出现乱码
def adapt_response(self, response):
return response.body.decode('gbk')
#进行字段的数据获取,可以辅助打印输出
#不然使用nolog参数,最后什么也没有输出
def parse_row(self, response, row):
i = CsvfeedDemoItem()
try:
i["name"] = row["name"]
i["searchField"] = row["SearchField"]
i["service"] = row["Service"]
i["specialty"] = row["Specialty"]
print("name:",row["name"])
print("searchField:",row["SearchField"])
print("service:",row["Service"])
print("specialty:",row["Specialty"])
print('\n--------------------\n')
except Exception as e:
print(e)
return i
2.5 执行爬虫
命令行输入爬虫指令
scrapy crawl demo --nolog
→ 输出的结果为:
3. 保存文件
将爬取的内容保存至本地,这里采用txt和csv两种方式存放数据
3.1 修改settings.py文件
一定不要忘记打开pipeline管道,不然只有就算写了保存数据的代码,最后也不会生成文件
3.1 修改pipeline.py文件(1)
先将数据保存为txt文本数据,具体的代码如下
class CsvfeedDemoPipeline(object):
def open_spider(self,spider):
self.file = open('demo.txt', 'w',encoding='gbk')
def close_spider(self,spider):
self.file.close()
def process_item(self, item, spider):
try:
name=item['name']
searchField = item["searchField"]
service =item["service"]
specialty = item["specialty"]
self.file.write('姓名:{}, 研究领域:{}, 服务分类:{}, 专业特长:{}\n'.format(
name,searchField,service,specialty)
)
except:
pass
→ 输出的结果为:(第一行数据暂没有处理,等有时间了看一下,这里把标题也输出了)
3.2 修改pipeline.py文件(2)
接着就是生成csv文件,代码如下
from scrapy.exporters import CsvItemExporter
#这一部分可以看上一篇的讲解,关于csv文件的导出
class CsvfeedDemoPipeline(object):
def __init__(self):
self.file = open('demo.csv', 'wb')
self.exporter = CsvItemExporter(self.file, encoding = 'gbk')
self.exporter.start_exporting()
def close_spider(self,spider):
self.exporter.finish_exporting()
self.file.close()
def process_item(self, item, spider):
self.exporter.export_item(item)
return item
→ 输出的结果为:(和上面的一样,之前的标题给录入了,后续处理一下)
至此全部的csvfeed模板爬取csv文件的内容梳理完毕