利用Python爬虫爬取京东商品的简要信息

JD商品详情页的网页分析

入口URL选择为JD某商品详情页:https://item.jd.com/4224129.html

我们需要分析的内容主要有:

详情页上指向的其他URL

我们打开https://item.jd.com/4224129.html,发现网页上还有很多指向其他商品的链接。


通过鼠标右键,查看元素,我们可以发现商品页面上的以上链接均为以下格式: //item.jd.com/数字.html

分析到此,我们就知道抓取网页内容时,从当前页面上抽取新的URL的方法了。

商品名称、价格

同理,我们在商品名称和价格处点击鼠标右键查看元素

简单爬虫框架

1.爬虫总调度程序

即我们的main文件,以入口URL为参数爬取所有相关页面

2.URL管理器

维护待爬取和已爬取的URL列表

3.HTML下载器

主要功能是下载指定的url,这里用到了urllib2

4.HTML解析器

主要功能是获取网页上所需的URL和内容,用到BeautifulSoup

5.输出程序

将爬取到的数据写入HTML文件中,利用HTML的table展示

源码

爬虫总调度程序

URL管理器

HTML下载器

HTML解析器

输出程序

待解决问题

关于我爬取不到价格的问题...

调试中发现我已爬取到了对应的内容,唯独少了价格...一度扎心啊...

猜你喜欢

转载自blog.csdn.net/qq_40925239/article/details/89241600