爬虫与反爬虫的攻防博弈

遥想当年,我的第一份实习工作,还就是做的爬虫呢。不知不觉 7 年过去了,如今首例利用爬虫技术非法盗抓数据案都已经被判违法了。

我记得我第一份实习工作,就是做的爬虫,利用爬虫技术,去爬取各种论坛和网站,然后要做到记录到每个论坛帖子的发帖时间,在论坛的板块,页数,发帖时间,发帖 ID ,然后存储起来,可以做到搜索关键字快速定位到哪个论坛的那一页,哪个帖子。而且这个爬虫技术基本上要做到可以适配几乎所有,可以说很多网站和论坛。

随便放一个论坛的首页网址进去,就可以快速爬虫论坛里的所有内容了。当时,感觉还是挺好玩的,当然越小的网站和论坛越容易爬虫,越大的论坛和越大科技公司做的网站等就越难爬,因为他们都做了反爬虫的处理,好像百度贴吧当时就很难爬虫。

如今呢?现在爬虫都犯法了,今天早上醒来,看到大家都在微博转发,尤其是技术圈里的人,都在说这件事。

据海淀法院官网消息, 近期,海淀法院审结了一起利用 “爬虫” 技术侵入计算机信息系统抓取数据的刑事案件。该案系全国首例利用 “爬虫” 技术非法入侵其他公司服务器抓取数据,进而实施复制被害单位视频资源的案件。

大概事情是这样的:使用爬虫技术的公司于 2016 年至 2017 年间采用技术手段抓取被害单位北京某网络技术有限公司服务器中存储的视频数据,并由被告人破解北京某网络技术有限公司的防抓取措施,使用 “tt_spider” 文件实施视频数据抓取行为,造成被害单位北京某网络技术有限公司损失技术服务费人民币 2 万元。

经鉴定,“tt_spider” 文件中包含通过分类视频列表、相关视频及评论等接口对被害单位服务器进行数据抓取,并将结果存入到数据库中的逻辑。在数据抓取的过程中使用伪造 device_id 绕过服务器的身份校验,使用伪造 UA 及 IP 绕过服务器的访问频率限制

其实小公司,小网站,没有做反爬虫的技术处理,爬虫代码就简单多了,这个没有什么技术含量。而这个案例中被告人使用伪造 device_id 绕过服务器的身份校验,使用伪造 UA 及 IP 绕过服务器的访问频率限制进行爬虫说明是违背了内容提供者意愿的。

说实话,做过爬虫的都知道,常用的反爬虫手段基本上都是这样的,限制 IP 的访问次数,检查判断是否有同一个设备在频繁不断请求(也就是检查 device_id) 。

说白了最常见的反爬虫手段有三种:

  • 通过分析用户请求的 Headers 信息进行反爬虫。

  • 通过判断同一个 IP 或者同一个设备,在短时间内是否频繁访问对应网站等进行分析;

  • 通过动态页面增加爬取的难度,达到反爬虫的目的。

对于爬虫者来讲,可以非常方便的获取别人辛辛苦苦收集和整理的信息,内容等,但是大量的爬虫也可能会给内容提供者的网站和服务器造成重大的压力,因为有些暴力爬虫者,不管三七二十一,频繁请求别人的服务器,导致服务器压力过大。

我们一起来看看爬虫和反爬虫的攻与防,以及给别人的服务器带来的压力和损失。

(图片来自网络,侵删)

所以,作为技术人来讲,爬虫要讲究规则和方法的,一定要善用爬虫,慎用爬虫,爬虫虽好,但是一定不要侵权,尤其是盗取别人的原创内容和知识,更不要传播具有版权的内容和产品。

在这起案件中,法官认为:

在信息时代,“爬虫” 技术是一种常见的数据抓取技术,最常用的领域是搜索引擎,该技术的有效使用有利于数据的共享和分析、造就了互联网生态的繁荣,但并不意味该技术的使用没有边界。法官在此提醒互联网行业的从业人员,必须在法律的框架之内合理使用该技术,违反法律规定利用该技术非法获取数据可能构成犯罪。

所以这起案件给我们的提示和警醒就是:

  1. 要善用爬虫,不要爬虫具有版权和原创的知识,内容,产品,更不要传播。

  2. 要慎用爬虫,不要使用爬虫技术去获取违背内容提供者意愿的信息。

  3. 要对用爬虫,不要暴力使用爬虫技术,给别人的服务器造成压力和损害。

尤其是利用爬虫技术获取信息去获利,去商用的人和企业,尤其是同行之间竞争的人,要小心了,一旦被抓到,这个案例就是一个很好的例子。

你们大家认为爬虫违法么?认为如何正确使用爬虫呢?认为爬虫什么不会违法?欢迎大家在文章底下留言,一起交流自己的看法和观点。

猜你喜欢

转载自blog.csdn.net/yulidrff/article/details/86064469