天猫双11爬虫(福利:212万条商品数据免费下载)

2016年12月12日更新:《天猫双12爬虫(福利:266万条商品数据免费下载)》

背景:

2016年11月11日,中午刷了一下天猫,突然来了兴致想要把天猫上参与双11活动的商品都爬下来。双11,不仅因为打折商品的数据比普通数据更有价值,更重要的是在双11,天猫、京东为了容纳大流量,肯定会把防爬机制都暂停了,这种机会难得,岂能不爬?
天猫双11爬虫

之前没有爬过天猫/京东这些电商平台,对他们网站的结构和防爬机制也不是很清楚,反正就是一时兴起 操刀便爬。首先是了解各个会场的网页结构、加载数据的方式,然后写程序抓取,最后解析。天猫双11总共35个会场,不同会场加载数据的方式会有些许不同,想要抓取尽量完整的商品数据,程序需要分几个步骤去抓取,并且需要不断地测试、完善。在半天不到的时间里要写好程序并把数据都爬下来,真是争分夺秒呀,到了晚上十二点才松了一口气。原本想把京东也爬了的,早几个小时动手就好了。


Anyway,天猫的数据还是有了。本文不详述爬虫的细节和代码,主要目的是发放数据福利!!

数据说明:

11 链接: https://pan.baidu.com/s/1gf9Lc8j 密码: hcq7
11 链接: https://pan.baidu.com/s/1mhOUeNY 密码: 5yb8
11 链接: https://pan.baidu.com/s/1c1U9DEK 密码: uvar
11 链接: https://pan.baidu.com/s/1i4IopLz 密码: 7md7

天猫双11商品原始数据:
里面包含两份json文件:source1.json(185374条) 和 source2.json(181491条)。这是从网页中解析出来的初始数据,信息最全,但也包含许多无用字段。source1.json主要是商品分类信息(例如一个手机商品,有内存、颜色、套餐等分类),source2.json主要是双11活动的数据(例如内存A+颜色B+套餐C的手机,原价、现价、双11优惠信息等)。两个文件的每一条json都有个_id,它是商品ID,可以对照着网页上显示的数据查看各字段代表的意义。(商品链接形如:https://detail.tmall.com/item.htm?id=538420191509

从这两份原始数据筛选出比较关键的字段,便得到下面的这三份数据。


天猫双11商品活动数据:
大小:2126817条。
说明:我爬下来的商品ID总共是18万条,但是每一个商品,例如手机,它有内存、颜色、套餐等分类,选择不同的内存或者颜色,它们的价格和优惠活动都可能不同,它们可以作为一个独立商品数据。所以一个商品ID可能会生成几条商品活动数据(例如https://detail.tmall.com/item.htm?id=538420191509&skuId=3217583088470  和  https://detail.tmall.com/item.htm?id=538420191509&skuId=3217583088471,它们的商品ID都是538420191509,但它们是两条不同的商品活动数据)。
天猫双11商品活动数据
字段说明:_id即为该商品的URL。


天猫双11商品参数数据:
大小:183673条。
说明:每个商品ID有一条参数数据。
天猫双11商品参数数据


天猫双11商品图片数据:
大小:2500838条。
说明:商品用到的图片URL,下载下来总共有600G上下,三两天能下载完,如果有需要的可以联系我。
天猫双11商品图片数据
字段说明:_id为图片URL,商品链接为用到该URL的商品链接。

结语:

需要再爬一份双11过后一个星期的数据吗?或者双12的数据?来来来,留言留言。。



转载请注明出处,谢谢!(原文链接:http://blog.csdn.net/bone_ace/article/details/53181015

猜你喜欢

转载自blog.csdn.net/Bone_ACE/article/details/53181015