如何学习爬虫,我的爬虫学习之路,怎样学好爬虫的,爬虫认知篇(1)

版权声明:如有侵权,请联系作者删除该文件! https://blog.csdn.net/Programmer_huangtao/article/details/83010949

          作为一个小白来说,那就是---->我,看那多原理,等于天书,我看不懂,但是为啥是叫了解爬虫,而不是懂里边内容,框架(Scrapy)怎么写的,我作为小白知道怎么用,不就行了吗,对不对,之后在了解深入.


  • 爬虫是什么


     作为小白呢?知道爬虫是爬取网络数据的就行了.


       网络爬虫(或称为网络爬虫、网络蜘蛛、机器人)是搜索引擎最上游的一个模块,是负责搜索引擎内容索引的第一关。

       很多人为了提高自己网站的索引量,都是去网上随便找一些爬虫工具来使用。但是很多人不知道,这些抓取网站的小爬虫是有各种各样的不同性格的。

       爬虫是服务器有喜欢,又讨厌的,因为爬虫是干嘛的,模拟人的操作啊,这是什么就是像淘宝,

用户浏览商品啊,一个网店没人来,它能得到钱?显然不能,所以喜欢,但是爬虫又不是人啊,人浏览

完了,还能买商品,但是爬虫得到信息啊,这些信息是什么,价格竞争啊,知道我卖多少钱了,再去别

的地方看,怎么办,还有就是爬虫没人管了,放到服务器上自动爬,我一个公司或者网店它的服务器

就这么大,全是你这个爬虫,别人还来的了吗?资源拥堵了,所以又是喜欢又是讨厌.

  • 爬虫类型

      作为我们使用的爬虫,一个小白写半天有啥用,就是帮助公司获取想要的数据的爬虫.


    常见的优秀网络爬虫有以下几种类型:

  • 1.批量型网络爬虫:限制抓取的属性,包括抓取范围、特定目标、限制抓取时间、限制数据量以及限制抓取页面,总之明显的特征就是受限;

  • 2.增量型网络爬虫(通用爬虫):与前者相反,没有固定的限制,无休无止直到抓完所有数据。这种类型一般应用于搜索引擎的网站或程序;

  • 3.垂直网络爬虫(聚焦爬虫):简单的可以理解为一个无限细化的增量网络爬虫,可以细致的对诸如行业、内容、发布时间、页面大小等很多因素进行筛选。

  • 爬虫使用

        这些网络爬虫的功能不一,使用方法也不同。例如谷歌、百度搜索就是典型的增量型爬

虫,提供大而全的内容来满足世界各地的用户。另外像天猫、京东很多店铺都需要屏蔽外来的

抓取,这时就需要爬虫根据一些低级域名的链接来抓取他们进行排名。

       后来随着爬虫使用越来越灵活,很多网站都使用多个爬虫同步进行抓取。例如现下很多视

频网站,都是先通过一般爬虫或者人工批量抓取内容,然后给用户一些可选项,让客户自己给

聚焦爬虫划定范围最后找到匹配度足够高的内容,整个过程极大的降低了资源和时间的消耗。

相反如果这些内容全部用聚焦爬虫来完成,不仅要消耗大量的网络资源,而且会延长搜索时间

时间,影响客户体验。

  •  思考下你要是去公司上班了,专门做爬虫要用什么爬虫? 怎么爬?     

猜你喜欢

转载自blog.csdn.net/Programmer_huangtao/article/details/83010949
今日推荐