爬虫工具之就业调查

由于我准备网上爬一点信息,所以想找一些爬虫工具。为了搞清楚现在什么爬虫工具最流行,我自己去51job做了调查。调查的方法很简单,就是去51job搜索爬虫两个字,看岗位需求。我选取了北上广深杭5个主要互联网城市,工资水平设置在1.5万以上(工资低的大家应该没兴趣了)。调查时间为2017年3月26日9点左右。搜索爬虫两个字,出来了345个结果。




虽然结果很多,但是只有大概前面100多个是爬虫工程师,后面的连项目经理都出来了。我就只统计了前面的100个。统计结果如下:




从统计结果看,Nutch(33次),Scrapy(23次),Heritrix(20次)是岗位介绍里出现次数最多的三个爬虫工具。


下面,我将分别调查一下这三个工具。




Nutch

官网:http://nutch.apache.org/

wikipedia页面:https://en.wikipedia.org/wiki/Apache_Nutch


Apache nutch是高可扩展的开源网页爬虫项目。Nutch是用java开发的,但是数据文件为公用格式。


Scrapy

官网:https://scrapy.org/

wikipedia页面:https://en.wikipedia.org/wiki/Scrapy


Scrapy是免费开源的网络爬虫框架。编写语言为python。拥有者为Scrapinghub Ltd。


Heritrix

官网:https://webarchive.jira.com/wiki/display/Heritrix

wikipedia页面:https://en.wikipedia.org/wiki/Heritrix


Heritrix是Internet Archive的开源爬虫。编写语言为java。

猜你喜欢

转载自blog.csdn.net/juwikuang/article/details/66472279
今日推荐