一、获取服装标题信息

先复制这个标题：“加肥加大码内搭打底衫T上衣服秋衣潮男装卫衣”

在这里插入图片描述
在源代码中找到（如下）：注意不能只找一个！

"title":"春季宽松长袖t恤男士加肥加大码内搭打底衫T上衣服秋衣潮男装卫衣",
"raw_title":"2019秋季猫咪卡通印花长袖t恤男青少年","pic_url":"//g-search1.alicdn.com/img/bao/uploaded/i4/imgextra/i1/116602634/O1CN0129cvZE1VKPoCT1aIQ_!!0-saturn_solar.jpg","detail_url":"https://click.simba.taobao.com/cc_im?p\u003d%B7%FE%D7%B0\u0026s\u003d478535496\u0026k\u003d557\u0026e\u003dKVz5NyFMTIbdZqK8UYtDaMbQ1letbBl5rxM5oI1LIda9fZoBqdhZmAz3rh7kXlJdy9%2Bv%2BGDyvp3SrIzjUiHQP3ZLRHdOD0YdrrpUjLBk8JZGkXzexh%2FwcJwPoK76mE%2FECf0BbXKQxysA7NkzCaWPRxvlrYvknUJR%2FCWPB64wAxZCtf1VZk4M2RvrzEUeH8KAaTNQ0ihK1F6MKDU8NWIYt7u7YMaoGa9Oc%2BaJ6HvpxmlYQKdUA3tIG9yxB7fNP4sBrUmooXp%2BZcgQ6e9jE5VuNzwuHyuUep70r6av7%2Fr4InpF0F%2BnqwPTRfyGAcv1sPSN3zlVRn9QAQdDNE58v7Z%2BFvH2839KEaLTj%2FYalTUgjcU4syfdkgvXiarKOCHdM43WMksuoJ8fPcCVk7Cqy9YWTelRb84uAvjppa7%2FSJ4CKUV%2BtiVpGTFzYY5C7OwrQH4K6H%2Bt2C34aGKfgt5Q7RH9AIJ7etvf999WMMYsakmxRsxKiywNM7DVyAC5jYLEqaoqlJGJwT%2BKL3ZM%2Bv5uHKmzwayhFw5WAexFDnsBk57%2BXYk%3D","view_price"

我们再找一个（不要嫌我啰嗦，爬虫就是要这样严谨一些）
在复制这个标题：“款中山装青年中国风唐装古风古装夹克外套春季汉服”
在这里插入图片描述
在源代码中找到（如下）：这下我们发现，源代码中有两段一样的东西

"title":"麒麟刺绣套装男款中山装青年中国风唐装古风古装夹克外套春季汉服",
"raw_title":"麒麟刺绣套装男款中山装青年中国风唐装古风古装夹克外套春季汉服","pic_url":"//g-search3.alicdn.com/img/bao/uploaded/i4/i1/2144120484/O1CN01lyDThL1FRiGir64iU_!!0-item_pic.jpg","detail_url":"//detail.tmall.com/item.htm?id\u003d600041600239\u0026ad_id\u003d\u0026am_id\u003d\u0026cm_id\u003d140105335569ed55e27b\u0026pm_id\u003d\u0026abbucket\u003d8"

title是上一个有的，下一个有的是raw_title:这时我们观察上一个是广告，不是产品信息，所以咱们想要标题信息要title和raw_title后面的都可以，这里不建议使用title，因为title不唯一，太普遍了，经过后续的分析的时候发现raw_title可以唯一代表标题，一个页面48条信息。

我们提取商品标题分析出正则表达式：

raw_title":"卫衣套装春季男士2019春装新款连帽运动服装休闲潮春秋款衣服外套",
//获取标题的正则表达式
title_s = 'raw_title":"(.*?)",'

二、获取服装购买人数信息

先复制这个购买人数：“71人付款”

在这里插入图片描述
在源代码中找到（如下图）：

"view_sales":"71人付款",
"comment_count":"834",
"user_id":"2144120484","nick":"百变哥旗舰店","shopcard":{"levelClasses":[{"levelClass":"icon-supple-level-jinguan"}],"isTmall":true,"delivery":[471,-1,254],"description":[475,-1,215],"service":[470,-1,262],"encryptedUserId":"UvCH0MmHyvmQ4MNTT","sellerCredit":16,"totalRate":10000},"icon":[{"title":"尚天猫，就购了","dom_class":"icon-service-

我们提取商品购买人数这个很容易分析出正则表达式：

view_sales":"71人付款"
//获取标题的正则表达式
people_s = 'view_sales":"(.*?)",'

三、获取服装价格信息

先复制这个商品的价格：“136.00”

在这里插入图片描述
在源代码中查找

"view_price":"136.00",
"view_fee":"22.00",
"item_loc":"浙江 杭州","view_sales":"71人付款","comment_count":"834","user_id":"2144120484","nick":"百变哥旗舰店","shopcard":{"levelClasses":[{"levelClass":"icon-supple-level-jinguan"}],"isTmall":true,"delivery":[471,-1,254],"description":[475,-1,215],"service":[470,-1,262],"encryptedUserId":"UvCH0MmHyvmQ4MNTT","sellerCredit":16,"totalRate":10000},"icon

我发现这是我爬过最好分析的网站23333
我们提取商品价格这个也很容易分析出正则表达式：

view_price":"136.00"
//获取标题的正则表达式
price_s = 'view_price":"(.*?)",'

这下我们已经准备好了所有的分析工作,下一步开始编写爬虫

自动翻页爬取

下面我们需要粘贴下面的一些网页网址，根据经验p是我们的关键词搜集，他只是将“服装”换成了二进制吧?大家也可以把p=后面改成“服装”，也可以正常打开网页。根据观察链接最后的s=？是翻页内容，但是我们需要找到他的规律，一般看第一页，我们看第二页是s=44,第三页是s=88,是44×2=88，第四页是132，是44×3=132；使用我们总结出规律：页码=0+44×(页数-1)

淘宝网“服装”关键词第一页

https://s.taobao.com/search?q=%E6%9C%8D%E8%A3%85&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20200218&ie=utf8&bcoffset=6&ntoffset=6&p4ppushleft=1%2C48&s=0

淘宝网“服装”关键词第二页

https://s.taobao.com/search?q=%E6%9C%8D%E8%A3%85&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20200218&ie=utf8&bcoffset=3&ntoffset=3&p4ppushleft=1%2C48&s=44

淘宝网“服装”关键词第三页

https://s.taobao.com/search?q=%E6%9C%8D%E8%A3%85&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20200218&ie=utf8&bcoffset=0&ntoffset=6&p4ppushleft=1%2C48&s=88

淘宝网“服装”关键词第四页

https://s.taobao.com/search?q=%E6%9C%8D%E8%A3%85&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20200218&ie=utf8&bcoffset=-3&ntoffset=-3&p4ppushleft=1%2C48&s=132

所以我们总结出翻页功能的代码应该这样写

#页码值=0+44×(页数-1)0可以省略
for i in range(0,13):
    #从第一页便利到第十三页
    url = "https://s.taobao.com/search?q=%E6%9C%8D%E8%A3%85&imgfile=&js=1&stats_click=search_radio_all%" \
          "3A1&initiative_id=staobaoz_20200218&ie=utf8&bcoffset=6&ntoffset=6&p4ppushleft=" \
          "1%2C48&s="+str( 44 * ( i - 1 ) )