分析说明

爬取淘宝商品的信息，数据主要用于分析市场趋势，从而制定一系列营销方案。实现功能如下：

使用者提供关键字，利用淘宝搜索功能获取搜索后的数据
获取商品信息：标题，价格，销量，店铺所在区域
数据以文件格式存储

功能实现依次体现了爬虫的开发流程：爬虫规则->数据清洗->数据存储。

使用谷歌浏览器进入淘宝网站，利用搜索的功能输入‘四件套’关键字，
使用浏览器的调试功能捕捉信息，如果在响应的HTML中找不到数据，
那么可能数据是通过Ajax请求后台的，再通过前端渲染到页面上去的，
单击XHR，发送一个请求，查看数据请求信息如下图所示

接下来，我们单击Preview查看该URL的响应数据格式，
发现数据是JSON格式的，商品的标题，价格，销量，店铺名称和店铺所在地点
分别对应的数据为raw_title,view_price,view_sales,nick,item_loc

我们把它的请求链接拿出来研究一下

https://s.taobao.com/api?_ksTS=1540176287763_226&callback=jsonp227&ajax=true&m=customized&sourceId=tb.index&_input_charset=utf-8&bcoffset=-1&commend=all&suggest=history_1&source=suggest&search_type=item&ssid=s5-e&suggest_query=&spm=a21bo.2017.201856-taobao-item.2&q=四件套&s=36&initiative_id=tbindexz_20170306&imgfile=&wq=&ie=utf8&rn=9e6055e3af9ce03b743aa131279aacfd

请求链接的数据

我们可以把这个长长的链接简化一下

https://s.taobao.com/api?callback=jsonp227&m=customized&q=%E5%9B%9B%E4%BB%B6%E5%A5%97&s=36

从简化后的URL看出，有两个参数可以动态设置来获取不同的商品

q = 四件套这个是搜索的关键字
s = 36 这个是页数设置，

功能实现

根据对网站的分析获取单个关键字搜索的单页商品信息，代码如下：

import requests
import json
url = "https://s.taobao.com/api?callback=jsonp227&m=customized&q=四件套&s=36"
r = requests.get(url)
response = r.text
# 截取成标准的JSON格式
# 由于Ajax返回的数据是字符串格式的饿，在返回的值jsonp227(XXX)中
# XXX部分是JSON格式数据，因此先用字符串split()截取XXX部分，
#然后将XXX部分由字符串格式转成JSON格式的数据读取
response = response.split('(')[1].split(')')[0]
# 读取JSON
response_dict = json.loads(response)
# 定位到商品信息列表
response_auctions_info = response_dict['API.CustomizedApi']['itemlist']['auctions']

如果想要获取多页数据，可以在上述的代码中加入一个循环，实现代码如下：

for p in range(88):
	url = "https://s.taobao.com/api?callback=jsonp227&m=customized&q=四件套&s=%s" % (p)
	r = requests.get(url)
	# 获取响应信息字符串
	response = r.text
	# 转换成JSON格式
	response = response.split('(')[1].split(')')[0]
	# 加载数据
	response_dict = json.loads(response)
	# 商品信息
	response_auctions_info = response_dict['API.CustomizedApi']['itemlist']['auctions']

上述代码只能获取单个关键字搜索的商品信息，
如果要实现多个关键字的功能呢，就可以在上述代码中在多加一个循环，代码如下：

for k in ['四件套','手机壳']:
for p in range(88):
	url = "https://s.taobao.com/api?callback=jsonp227&m=customized&q=%s&s=%s" % (k,p)
	r = requests.get(url)
	response = r.text
	response = response.split('(')[1].split(')')[0]
	response_dict = json.loads(response)
	# 商品信息
	response_auctions_info = response_dict['API.CustomizedApi']['itemlist']['auctions']

数据存储

我们以CSV文件的格式存储数据，我们来定义一个函数:

def get_auctions_info(response_auctions_info,file_name):
	with open(file_name,'a',newline='') as csvfile:
		# 生成CSV对象，用于写入CSV文件
		writer = csv.writer(csvfile)
		for i in response_auctions_info:
			# 判断是否数据已经记录
			if str(i['raw_title']) not in auctions_distinct:
				# 写入数据
				# 分别是商品信息列表和CSV文件路径。
				# 但该文件并没有对CSV设置表头，所以在开始获取数据之前。
				# 应该生成对应CSV文件，并设定其表头
				writer.writerrow([i['raw_title'],i['view_price'],i['view_sales'],i['nick'],i['item_loc']])

				auctions_distinct.append(str(i['raw_title']))
		csvfile.close()

综合上述条件，整体代码如下：

import requests
import json
import csv
# 定义全局变量，用于判断数据是否已经记录
global auctions_distinct
auctions_distinct = []

def get_auctions_info(response_auctions_info, file_name):
    with open(file_name, 'a', newline='') as csvfile:
        # 生成csv对象，用于写入CSV文件
        writer = csv.writer(csvfile)
        for i in response_auctions_info:
            # 判断是否数据已经记录
            if str(i['raw_title']) not in auctions_distinct:
                # 写入数据
                writer.writerow([i['raw_title'], i['view_price'],i['view_sales'], i['nick'], i['item_loc']])
                auctions_distinct.append(str(i['raw_title']))
        csvfile.close()

if __name__ == '__main__':
    for k in ['四件套', '手机壳']:
        # 新建csv文件，每循环一个关键字会生成其对应的CSV文件
        file_name = k + '.csv'
        with open(file_name, 'w', newline='') as csvfile:
            writer = csv.writer(csvfile)
            # 写入表头信息
            writer.writerow(['标题', '价格', '销量', '店铺', '区域'])
			# 写完关闭文件
            csvfile.close()
        # 循环次数可以根据实际自行设定
        for p in range(88):
            url = 'https://s.taobao.com/api?callback=jsonp227&m=customized&q=%s&s=%s' % (k, p)
            r = requests.get(url)
            response = r.text
            response = response.split('(')[1].split(')')[0]
            response_dict = json.loads(response)
            response_auctions_info = response_dict['API.CustomizedApi']['itemlist']['auctions']
            # 调用函数get_auctions_info写入商品信息
            get_auctions_info(response_auctions_info, file_name)
    print('获取数据量为：' + len(auctions_distinct))

总结

去除无用的链接的参数，简化链接
分析URL的请求参数含义以及响应内容的数据规律
数据储存的去重判断

爬取淘宝商品信息

分析说明

功能实现

数据存储

总结

猜你喜欢