使用HttpClient和Jsoup爬取京东商城关键字搜索的商品页面 - 代码天地

使用HttpClient和Jsoup爬取京东商城关键字搜索的商品页面

其他 2021-10-08 12:06:52 阅读次数: 0

使用HttpClient可以创建浏览器对象，然后对页面数据进行抓取，另外再使用Jsoup库解析Html页面。因为Jsoup和JQuery一样有选择器获取元素的方式，所以抓取页面数据变得非常方便。

例如这个链接：https://search.jd.com/Search?keyword=%E5%B0%8F%E7%B1%B3&page=1&s=201&click=0
研究发现，京东商城关键字搜索商品的页面Url的page参数为奇数（1、3、5、7、9...），估计应该是前面30个商品数据实际为第一页，后面Ajax加载的30个商品数据实际为第二页，这个第一页和第二页的数据合起来就是page的1页的数据。

另外，京东商品的数据中，有2个字段很神奇，分别为spu和sku，spu代表商品集合id，sku代表商品最小品类单元id，也就是说一个spu至少有一个或多个sku。每个sku代表一个商品。
例如这个链接：https://item.jd.com/100004994481.html

现在就以爬取京东某个关键词下面的商品列表，一页有60个商品，不过只能爬取30个，还有30个是通过Ajax加载的，而且需要页面滚动到第30个数据之后才执行的Ajax请求，所以目前这异步加载的30个商品数据就爬不了了。如果想要抓取完整的60条数据，可以使用Selenium库，它是以滚动页面方式分析和抓取网页数据，可以抓取Js动态生成数据。

使用Fiddler抓包工具，有几个小发现，如下所示。

这里奉上一个简单的学习Demo，基于SpringBoot+HttpClient+Jsoup框架，只能获取每页的前30条商品数据，后30条异步加载的商品数据暂时没去实现，仅用于学习。
效果如下：

猜你喜欢

转载自blog.csdn.net/Cai181191/article/details/106969753

使用HttpClient和Jsoup爬取京东商城关键字搜索的商品页面

Python爬虫，根据搜索关键字爬取京东商品信息

java爬取图片-使用jsoup通过关键字爬取图片

使用HttpClient和Jsoup爬取京东手机信息案例

京东商品页面爬取

根据关键字爬取京东评论区图片

爬取京东商城商品信息

java爬虫案例——SpringBoot使用HttpClient、Jsoup爬取京东手机数据

知乎搜索关键字爬取相关图片

爬虫-京东商品搜索页爬取

python爬取京东商品页面信息

关于网络爬虫的的四个实例（爬取京东和亚马逊商品，百度搜索关键词，爬取一张图片）

京东API item_search - 按关键字搜索商品

京东API接口：item_search - 按关键字搜索商品

调用API接口获取和解析京东按关键字搜索商品数据

按关键字搜索淘宝天猫京东 1688商品

PHP调用接口京东API封装的例子（获得JD商品详情，按关键字搜索商品，按图搜索京东商品（拍立淘），获得店铺）

scrapy爬取京东商城某一类商品的信息和评论（二）

scrapy爬取京东商城某一类商品的信息和评论（一）

爬取京东商品

使用Selenium爬取京东商品

利用python爬虫爬取京东商城商品图片

爬取京东商城某件商品信息

JAVA 爬取新闻网站的数据，httpclient和jsoup。

亚马逊API接口（获取商品详情和关键字搜索商品）

微信sougo中风景关键字搜索文章爬取

python+selenium爬取关键字搜索google图片

爬虫日记之关键字搜索引擎爬取

网络爬虫-京东商品页面的爬取

requests实例1：京东商品页面的爬取

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)