网络爬虫——淘宝网页面分析思路

一、获取服装标题信息

先复制这个标题:“加肥加大码内搭打底衫T上衣服秋衣潮男装卫衣”

在这里插入图片描述
在源代码中找到(如下):注意不能只找一个!

"title":"春季宽松长袖t恤男士加肥加大码内搭打底衫T上衣服秋衣潮男装卫衣",
"raw_title":"2019秋季猫咪卡通印花长袖t恤男青少年","pic_url":"//g-search1.alicdn.com/img/bao/uploaded/i4/imgextra/i1/116602634/O1CN0129cvZE1VKPoCT1aIQ_!!0-saturn_solar.jpg","detail_url":"https://click.simba.taobao.com/cc_im?p\u003d%B7%FE%D7%B0\u0026s\u003d478535496\u0026k\u003d557\u0026e\u003dKVz5NyFMTIbdZqK8UYtDaMbQ1letbBl5rxM5oI1LIda9fZoBqdhZmAz3rh7kXlJdy9%2Bv%2BGDyvp3SrIzjUiHQP3ZLRHdOD0YdrrpUjLBk8JZGkXzexh%2FwcJwPoK76mE%2FECf0BbXKQxysA7NkzCaWPRxvlrYvknUJR%2FCWPB64wAxZCtf1VZk4M2RvrzEUeH8KAaTNQ0ihK1F6MKDU8NWIYt7u7YMaoGa9Oc%2BaJ6HvpxmlYQKdUA3tIG9yxB7fNP4sBrUmooXp%2BZcgQ6e9jE5VuNzwuHyuUep70r6av7%2Fr4InpF0F%2BnqwPTRfyGAcv1sPSN3zlVRn9QAQdDNE58v7Z%2BFvH2839KEaLTj%2FYalTUgjcU4syfdkgvXiarKOCHdM43WMksuoJ8fPcCVk7Cqy9YWTelRb84uAvjppa7%2FSJ4CKUV%2BtiVpGTFzYY5C7OwrQH4K6H%2Bt2C34aGKfgt5Q7RH9AIJ7etvf999WMMYsakmxRsxKiywNM7DVyAC5jYLEqaoqlJGJwT%2BKL3ZM%2Bv5uHKmzwayhFw5WAexFDnsBk57%2BXYk%3D","view_price"

我们再找一个(不要嫌我啰嗦,爬虫就是要这样严谨一些)
在复制这个标题:“款中山装青年中国风唐装古风古装夹克外套春季汉服”
在这里插入图片描述
在源代码中找到(如下):这下我们发现,源代码中有两段一样的东西

"title":"麒麟刺绣套装男款中山装青年中国风唐装古风古装夹克外套春季汉服",
"raw_title":"麒麟刺绣套装男款中山装青年中国风唐装古风古装夹克外套春季汉服","pic_url":"//g-search3.alicdn.com/img/bao/uploaded/i4/i1/2144120484/O1CN01lyDThL1FRiGir64iU_!!0-item_pic.jpg","detail_url":"//detail.tmall.com/item.htm?id\u003d600041600239\u0026ad_id\u003d\u0026am_id\u003d\u0026cm_id\u003d140105335569ed55e27b\u0026pm_id\u003d\u0026abbucket\u003d8"

title是上一个有的,下一个有的是raw_title:这时我们观察上一个是广告,不是产品信息,所以咱们想要标题信息要title和raw_title后面的都可以,这里不建议使用title,因为title不唯一,太普遍了,经过后续的分析的时候发现raw_title可以唯一代表标题,一个页面48条信息。

我们提取商品标题分析出正则表达式:

raw_title":"卫衣套装春季男士2019春装新款连帽运动服装休闲潮春秋款衣服外套",
//获取标题的正则表达式
title_s = 'raw_title":"(.*?)",'

二、获取服装购买人数信息

先复制这个购买人数:“71人付款”

在这里插入图片描述
在源代码中找到(如下图):

"view_sales":"71人付款",
"comment_count":"834",
"user_id":"2144120484","nick":"百变哥旗舰店","shopcard":{"levelClasses":[{"levelClass":"icon-supple-level-jinguan"}],"isTmall":true,"delivery":[471,-1,254],"description":[475,-1,215],"service":[470,-1,262],"encryptedUserId":"UvCH0MmHyvmQ4MNTT","sellerCredit":16,"totalRate":10000},"icon":[{"title":"尚天猫,就购了","dom_class":"icon-service-

我们提取商品购买人数这个很容易分析出正则表达式:

view_sales":"71人付款"
//获取标题的正则表达式
people_s = 'view_sales":"(.*?)",'

三、获取服装价格信息

先复制这个商品的价格:“136.00”

在这里插入图片描述
在源代码中查找

"view_price":"136.00",
"view_fee":"22.00",
"item_loc":"浙江 杭州","view_sales":"71人付款","comment_count":"834","user_id":"2144120484","nick":"百变哥旗舰店","shopcard":{"levelClasses":[{"levelClass":"icon-supple-level-jinguan"}],"isTmall":true,"delivery":[471,-1,254],"description":[475,-1,215],"service":[470,-1,262],"encryptedUserId":"UvCH0MmHyvmQ4MNTT","sellerCredit":16,"totalRate":10000},"icon

我发现这是我爬过最好分析的网站23333
我们提取商品价格这个也很容易分析出正则表达式:

view_price":"136.00"
//获取标题的正则表达式
price_s = 'view_price":"(.*?)",'

这下我们已经准备好了所有的分析工作,下一步开始编写爬虫

自动翻页爬取

下面我们需要粘贴下面的一些网页网址,根据经验p是我们的关键词搜集,他只是将“服装”换成了二进制吧?大家也可以把p=后面改成“服装”,也可以正常打开网页。根据观察链接最后的s=?是翻页内容,但是我们需要找到他的规律,一般看第一页,我们看第二页是s=44,第三页是s=88,是44×2=88,第四页是132,是44×3=132;使用我们总结出规律:页码=0+44×(页数-1)

淘宝网“服装”关键词第一页

https://s.taobao.com/search?q=%E6%9C%8D%E8%A3%85&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20200218&ie=utf8&bcoffset=6&ntoffset=6&p4ppushleft=1%2C48&s=0

淘宝网“服装”关键词第二页

https://s.taobao.com/search?q=%E6%9C%8D%E8%A3%85&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20200218&ie=utf8&bcoffset=3&ntoffset=3&p4ppushleft=1%2C48&s=44

淘宝网“服装”关键词第三页

https://s.taobao.com/search?q=%E6%9C%8D%E8%A3%85&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20200218&ie=utf8&bcoffset=0&ntoffset=6&p4ppushleft=1%2C48&s=88

淘宝网“服装”关键词第四页

https://s.taobao.com/search?q=%E6%9C%8D%E8%A3%85&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20200218&ie=utf8&bcoffset=-3&ntoffset=-3&p4ppushleft=1%2C48&s=132

所以我们总结出翻页功能的代码应该这样写

#页码值=0+44×(页数-1)0可以省略
for i in range(0,13):
    #从第一页便利到第十三页
    url = "https://s.taobao.com/search?q=%E6%9C%8D%E8%A3%85&imgfile=&js=1&stats_click=search_radio_all%" \
          "3A1&initiative_id=staobaoz_20200218&ie=utf8&bcoffset=6&ntoffset=6&p4ppushleft=" \
          "1%2C48&s="+str( 44 * ( i - 1 ) )

自动登录淘宝

淘宝有一个这样的设置,就是复制地址如果浏览器没有打开过淘宝直接跳转搜索页面现在会跳到登录页,拿到的都是登录页的页面数据,所以我们就查不到页面内的数据。

所以我们要设置自动登录淘宝,但是这个过程比较麻烦的,我们会在下个博客详细的介绍给大家!

虽然这个项目没有完全做完,但是其中的思想是通用的,大家以后爬取其他页面的时候也这样做就可以了,大家想学习完整项目的话可以看这几个博客,讲的非常详细,没任何毛病。

一、网络爬虫——爬取网站所有Python书籍到数据库
二、Java、Python哪家强?十万条应聘数据告诉你(含源代码)

结尾送上1800G编程资源,希望大家喜欢,谢谢支持!

在这里插入图片描述

发布了17 篇原创文章 · 获赞 215 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/xiaozhezhe0470/article/details/104372812
今日推荐