马蜂窝游记爬虫指南

其他 2018-12-24 14:32:51 阅读次数: 0

1.首先是找到游记地址，找到游记地址就很费劲

在攻略和目的地栏找了，搜了半天西安，才勉强找到地址

在页面最下方

把最热游记改成最新游记，最热只出300页，3000条，

最新就是全部2538页，25373条

2.F12 找到分页地址，指向翻页按钮

例如指向第3页的按钮

<a class="pi" href="1-0-3.html" title="第3页">3</a>

在F12的页面中直接点击这个链接

可以直接进入游记页面

终于找到了游记的真实地址

想爬游记要找详情页

最新游记第2页的网址，

http:/.../2-0-2.html

第n也就是（2变成1，就是最热游记，只有3000篇）

http:/.../10195/2-0-n.html

实际网址规则是等差数列

3.循环爬取详情页网址，可以采用网址探测器，探测一级就够了

探测和采集的网址中会出现不是游记详情页的网址，设置规则，只爬取详情页格式的网址

探测的网址格式如下，以第二页为例，不设置规则，就会连图片都探测出来，193条网址

加入规则，需要包含规定字符串的网址

4.爬取详情页内容，设置好规则

使用Xpath方法，找到各详情页网址你想爬的内容

最终效果如图所示

猜你喜欢

转载自blog.csdn.net/qq_912917507/article/details/85194917

马蜂窝游记爬虫指南

Python爬虫抓取马蜂窝游记的照片基于xpath

Webmagic 爬虫框架爬取马蜂窝、携程旅游、汽车之家游记信息

使用python爬取马蜂窝游记

程序员捅了马蜂窝：都是爬虫的锅

马蜂窝当季城市 Top5 景点爬虫

马蜂窝sn加密

Webmagic学习（爬取马蜂窝、汽车之家、携程旅游游记数据）

NO.31——Python爬虫分析马蜂窝十一假期城市旅游数据

爬虫puppeteer-马蜂窝列表热门数据爬取 demo（一）

python爬虫——爬取马蜂窝景点翻页文字评论

PYthon高级应用第5次作业-网络爬虫练习-马蜂窝泉州热门景点

python爬虫项目之携程网、大众点评和马蜂窝贵州景点差评实战汇总

python马蜂窝网站的爬取和简单分析。

区块链拒绝马蜂窝式造假

马蜂窝“评论造价事件”，是事实？还是被人坑了？

【RQNOJ86】智捅马蜂窝【最短路】

从NLP反作弊技术看马蜂窝注水事件

马蜂窝消息总线——面向业务的消息服务设计

Flutter 实现原理及在马蜂窝的跨平台开发实践

马蜂窝 iOS App 启动治理：回归用户体验

马蜂窝用户内容贡献能力模型构建

马蜂窝 IM 系统架构的演化和升级

从马蜂窝看独角兽劫难

马蜂窝数据仓库架构实践

马蜂窝 IM 移动端架构的从 0 到 1

马蜂窝2020秋招java方向笔试

机器学习在马蜂窝酒店聚合中的应用初探

Kafka 集群在马蜂窝大数据平台的优化与应用

高仿马蜂窝旅游头像泡泡动画

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

虽然老乡鸡开源的不是代码，但背后的原因却让人很暖心

周排行

决策树的部分理解

STM32软件IIC的实现

RocketMQ原理解析-HA

vue-动态路由（路由的传参和接参）

利用python对Excel中的特定数据提取并写入新表

【Ubuntu】 Ubuntu16.04搭建NFS服务

Elasticsearch基础操作与对应的curl命令行，python对接实现

JVM数据存储结构 & Java的值传递和址传递

yum命令使用指南

java基础（一）：java语法基础

每日归档

更多

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)