爬虫的法律风险

2017年2月27日,宋某和侯某被警方从办公室带走。当时传言纷纷,谁也不知道出了什么事,只是模模糊糊知道与今日头条相关。
10月14日,海淀区人民法院的开庭公告揭开了谜底:两人涉嫌非法获取计算机信息系统数据、非法控制计算机信息系统罪,将在10月17日开庭审理。
后来公开的法庭宣判书指控,侯某、宋某等四人合谋,使用技术手段抓取今日头条服务器上的视频数据,并由CTO侯某指使人破解服务器防抓措施,使被害公司损失技术服务费两万元。
上面这段话引自判决书,用白话说就是:
头条视频的前总经理宋某、视频技术负责人侯某与新东家张某合谋,利用网页爬虫技术来获取今日头条的视频数据库。为了破解头条的反爬技术,侯某等人伪造了UA(useragent的缩写,意思就是“用户身份”)来绕过。
黑奇士请教了相关技术专家,如果使用爬虫技术对网站进行爬取,尤其是爬取视频这样的大体积文件,很可能造成正常用户浏览缓慢、登陆卡等情况。从判决书来看,头条只追究了“技术服务费”的花费,相对还是比较厚道。实际上如果用于反爬,服务器费用、带宽费用等,加起来绝对不是两万这样的小数字。只不过那样的花费一般用于日常反爬,无法证明与侯某等爬取的直接关系,因此没有列入其中。
最终法庭判决,侯某、宋某等人因为触犯非法获取计算机信息系统数据罪,被判九个月至一年不等的有期徒刑,并处罚金。
黑奇士了解到,这是国内首起“爬虫入刑”案。此前百度与前CTO刘建国创立的爱帮网也曾爆发过爬虫诉讼,爱帮网用爬虫爬取了百度知道的内容之后,被百度告上法庭。但此前的类似案例均为不正当竞争案,本次侯某等人被判入狱,还是破天荒第一次。

《刑法》对网络爬虫的定罪依据

《刑法》第 285 条,非法获取计算机信息系统数据罪。

获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,处三年以下有期徒刑或者拘役,并处或者单处罚金; 最高处七年有期徒刑并处罚金。

《刑法》第285条是对爬取数据的主要定罪依据。

判例

1.数据拥有者有证据能够举证你的数据是抓取来的。如下,今日头条对起诉上海晟品法院宣判结果。

今日头条 诉 上海晟品:

从文书描述来看,修改UA,修改device id,绕开网站访问频率控制这是写爬虫的基本,这些手法反而成为了获罪的依据。

  1. 不正当竞争。
    陌陌非法抓取并使用微博用户数据,非法获取并使用陌陌用户手机通讯录联系人与微博用户的对应关系,构成不正当竞争。

3.扰乱对方网站经营规则,且牟利。

图上描述做搜索引擎排名的技术,其实就是利用爬虫技术规模化的访问网页。

总结

在我们通常的认知里,因为互联网推崇分享精神,所以认为只要是网络公开数据就可以抓取,但是通过上面的案例来看,

有几个禁忌,抓取的数据最好不要直接商用,涉及社交信息/用户信息要谨慎, 老板交代你抓取敏感任务时,让老板先看下刑法第285条。

另外在抓取过程中,如果破解/反编译对方客户端、软件,破解加密算法,比如你抓某APP数据,去反编译他的客户端,这绝对是犯法,这是破坏计算机信息系统罪。

参考资料:

猜你喜欢

转载自www.cnblogs.com/lokvahkoor/p/11136093.html
今日推荐