京东商城大规模爬虫的开发 - 代码天地

京东商城大规模爬虫的开发

编程语言 2019-01-19 20:26:23 阅读次数: 0

版权声明：派森学python，欢迎加群：923414804与博主一起学习 https://blog.csdn.net/weixin_44369414/article/details/86551455

先说下这个网站，首先在首页随便输入一个想爬取的商品类别，观察到一般商品数目都是100页的，除非有些比较稀少的商品，如图

小编整理一套Python资料，有需要Python学习资料可以加学习群：923414804 ，在这寒冷的冬天，泡一壶热茶，看书学习，岂不快哉。

介绍一下网站的分析过程，默认情况下在首页输入一件商品时，出来的搜索页面是只有30件商品的，屏幕的右侧下拉框拉到下面会触发一个ajax的请求，把剩下的30个商品渲染出来，一般每页60个商品里面是有三个左右是广告的，也就是有效商品一般是57个。这里看一下这个AJAX请求，这个是爬取难点

看一看这个请求头，我当时第一个感觉以为很多参数是可以去掉，拿到一个很简便的链接就可以了

当时没注意，删了很多参数直接请求，结果调试了很久，获得的商品在插进数据库去重的时候都是只剩网页的一般，细细观察了一下发现链接虽然不同，请求回来的商品却是一样的，然后我再细细看了看这个ajax请求，鼓捣了好久，最终发现这个URL后面的每个数字都是每一件商品的ID，而这个ID隐藏在第一次刚打开网页时候最初的那些商品里面，如图.........

这里结合ajax请求的参数看，

扫描二维码关注公众号，回复： 4985849 查看本文章

然后我又从新改掉爬虫逻辑，改代码，又花了两个小时，好惨啊.......

然后终于可以一次提取完整的网页商品了，最后提示一下，京东网页第一页的商品里面页数page是显示1和2的，第二页是3和4，这个有点特殊，最后上一张爬虫主程序图

运行结果如图

运行了几分钟，每页一千条，共爬了几万条裤子，京东的裤子真是多

猜你喜欢

转载自blog.csdn.net/weixin_44369414/article/details/86551455

京东商城大规模爬虫的开发

大规模爬虫流程总结

python爬虫--11 京东商城

京东利用BigDL构建大规模图像特征提取

大规模网站开发技术

媒体报京东将进行大规模裁员，京东回应要扩招1.5万个岗位？？

[转载]大规模爬虫流程总结,经验总结

Python爬虫入门，快速抓取大规模数据

笔记-大规模爬虫实现逻辑，问题及解决办法

python: 知乎大规模（34k）用户爬虫

大规模异步新闻爬虫【5】：网页正文的提取

每秒几十万的大规模网络爬虫是如何炼成的？

大规模定制模式下的敏捷产品开发pdf

API开发中如何使用限速应对大规模访问

多团队大规模Scrum敏捷开发-Leangoo

京东广告算法架构体系建设--大规模稀疏场景高性能训练方案演变

大规模异步新闻爬虫【4】：实现一个同步定向新闻爬虫

大规模异步新闻爬虫【6】：用asyncio实现异步爬虫

大规模网站

大规模网站架构

大规模MIMO自述

大规模主机管理

大规模机器学习

【算法】大规模排序

大规模部署的问题

0 大规模MIP

ChatGPT 大规模封号。。。

利用python爬虫爬取京东商城商品图片

Python爬虫入门，快速抓取大规模数据(第三部分)

Python爬虫入门，快速抓取大规模数据(第二部分)

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)