火车头抓取阿里巴巴内容页 - 代码天地

火车头抓取阿里巴巴内容页

其他 2019-01-11 10:31:17 阅读次数: 0

最近在做阿里巴巴的抓取，对于这种大型的网站，简单的按照教程的标签前后截取，很难以应用这种复杂的样式，因为对于阿里和淘宝这种网站，内容页的样式是用户自己定义的，所以说前后截取已经不再试用。

在网上参考了很多这方面的，真可谓可以利用的信息甚少。在火车头论坛上逛了一下，看见大家对于这种网站的抓取，都先用抓包软件分析网站的请求，抓取内容页真正的数据请求部分。

(httpanalyzer/httpwatch等等，本人比较喜欢前者)

比如抓取 http://detail.china.alibaba.com/offer/1130036970.html 这个网站，在IE浏览器上粘贴上这个网址，利用httpAnalyzer分析获取的结构

（NO 该网页加载获取请求的步骤， type 为获取请求的类型）内容页的类型应该就是text/html按照这个步骤，查找服务器返回的数据是否是内容页的数据，最终查找到真正的地址为 https://laputa.china.alibaba.com/offer/ajax/OfferDesc.do?offerId=1130036970&memberId=xiaohui055&callback=jQuery17208579062023162851_1363054197710）

https://laputa.china.alibaba.com/offer/ajax/OfferDesc.do?offerId=1130036970&memberId=xiaohui055&callback=jQuery17208579062023162851_1363054197710

分析次链接的构成

https://laputa.china.alibaba.com/offer/ajax/OfferDesc.do? 为请求内容页的基本链接

offerId=1130036970 为请求产品的id

memberId=xiaohui055 为请求产品的人的id

callback=jQuery17208579062023162851_1363054197710 不知何处作用，所以实验一下

1。不带memerId 和 callback请求页面 https://laputa.china.alibaba.com/offer/ajax/OfferDesc.do?offerId=1130036970 找不到内容

2. 带有memeberId 请求页面https://laputa.china.alibaba.com/offer/ajax/OfferDesc.do?offerId=1130036970&memberId=xiaohui055 找不到内容

等等

经过实验分析 memeberId 不是请求内容页面所必须的内容，callback应该为一个随机的值，必须要带callback=任意值

实验

http://laputa.china.alibaba.com/offer/ajax/OfferDesc.do?offerId=1130036970 &callback=cc即为内容页的请求内容。

剩下的便用火车头进行采集即可

转自：http://blog.csdn.net/wilsonke/article/details/36683787

猜你喜欢

转载自blog.csdn.net/qq_17255515/article/details/79523117

火车头抓取阿里巴巴内容页

火车头抓取豆瓣影评案例

优化火车头

火车头Host屏蔽

卡常火车头

火车头——思路与题解

火车头采集器：数据采集新利器，让你高效抓取所需数据

火车头采集器 8.2 多页采集json格式数据方法

织梦火车头采集自动生成首页栏目页

火车头分页采集实现

火车头数据采集工具

创建老式火车头图标

火车头采集器使用

tyvj 1387 迷你火车头

火车头如何下载附件文件

火车头采集头条文章

火车头发布怎么添加栏目采集的内容发布错误栏目对不上

火车头采集器网址采集规则获取内容网址的设置方法

火车头内容发布规则为保存本地文件时的注意事项

火车头内容采集规则之【C#代码】数字序号递增

火车头小发猫AI伪原创：提升网站内容质量的关键技巧

火车头内容采集规则之【php代码】将数字从小到大进行排序处理

百度翻译php接口，火车头插件

如何使用火车头采集器

centos7.2 实现火车头效果

火车头采集破解版下载

平面设计：复古火车头插图制作

YTU 2607 A代码填空题--更换火车头

火车头伪原创插件使用教程

火车头采集伪原创插件PHP版实现

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)