I.Talk | "盗图"—Python爬虫入门技

「I.Talk」，是从北师珠信院学生会延伸至微信公众号的特别栏目，针对于IT行业一周之内的时事进行报道。我们将每周一为同学们，报道最新鲜最有趣的新闻资讯，让同学们在学习IT知识之余，了解国内外IT行业潮流形势。

愉（duo）快（shou）的双十一过去了，看到购物网站上琳琅满目的商品，配着漂亮的图片，有没有很想下载下来当做素材呢。京东是我们购物经常去光顾的一个平台，它里面的商品多种多样，其中的商品图片也是应有尽有，今天小编呢就给大家带来一个京东商品图片的简单爬虫。

开发工具及环境搭建

多干货分享加python编程语言学习QQ群 515267276

Python版本：3.6.4

开发环境：pycharm 64位

浏览器：Chrome

相关模块：requests、urllib.request、lxml、os、bs4

安装：pip 安装即可

爬取 url 地址：www.jd.com 如下图

现在我们假设要爬取手机的图片，我们在搜索框内输入手机，点击搜索后的页面如下图。

此时的 url 如下图所示

可见其中有 ‘keyword=手机‘ 以及 ‘wq=手机’关键字，说明请求使用的是 get 方法现在我们修改 url，去掉一些字段后如下图所示。

页面可以正常显示

我们来点击第二页，可以看到 url 多了一个‘page=3’的字段，点击第三页，其中的数字变成了5，由此说明它的 url 每一页的字段为单数，我们在删减 url 可正常显示。

如下图

所以说，我们可以通过改变关键字，来确定想爬取的商品图片。确定了 url 后，我们来构造 url 列表，小编我只爬取了了前10页，有600张图，你也可以自定义，但太多的话会受到京东的反爬。代码如下，先输入一个 commodity 来得到想要爬取的商品名的关键字；然后用列表解析构造前10页的 urls。