python爬取动态数据实战---猫眼专业版-实时票房（一） - 代码天地

python爬取动态数据实战---猫眼专业版-实时票房（一）

其他 2019-10-31 16:50:46 阅读次数: 0

学习了python之后，准备爬虫项目练练手。简单实现爬取网页数据的功能，发现猫眼实时票房展示的数据样本正好符合预期，就记录一下之间遇到的困难与解决办法

目标网址：http://piaofang.meituan.com/dashboard

目标数据：其中绿色框是想要获取的数据种类，红色框是需要获取的具体数据

通过F12查看网页源代码，发现<table>标签里就是需要获取的数据

首先通过scrapy的shell命令：scrapy shell "http://piaofang.meituan.com/dashboard"

查看是否可以获取数据（本人就是在此处遇到了困难，造成无法获取动态加载的目标数据）

执行成功之后就进入了交互模式，可以获取网页的内容，

输入命令：response.xpath("//div/div/div[2]/div[2]/table").extract()

可以获取到数据的种类信息

通过命令:response.xpath("//div/div/div[2]/div[2]/div/div/table").extract()

获取不到数据的具体数值信息：返回的数据是空的

继续查看网页源代码，这些数据是实时加载的，发现数据存放在second-box这个xhr类型文件中，可以通过此处获取数据

注：XHR到底是什么可以参照这篇文章:https://www.cnblogs.com/dengyg200891/p/6564739.html）

选择-右击-可以选择复制链接地址：http://piaofang.meituan.com/second-box

单独打开这个页面地址就可以获取到实时票房数据了。

红色框等数据就是所需要的。只需要通过该地址获取数据即可

这时候再通过命令进入交互模式：scrapy shell "http://piaofang.meituan.com/second-box"

通过命令： response.body。查看到具体数据信息（中文不显示，但不妨碍获取数据）

以上就是爬取数据的流程步骤，后续会进行代码功能的实现

猜你喜欢

转载自www.cnblogs.com/no-end-to-learning/p/11771590.html

python爬取动态数据实战---猫眼专业版-实时票房（一）

python爬虫实战--爬取猫眼专业版-实时票房

python爬取动态加载的网页之爬取猫眼电影实时票房

Python使用asyncio+aiohttp异步爬取猫眼电影专业版

猫眼电影票房爬取

Python3爬取起猫眼电影实时票房信息，解决文字反爬~~~附源代码

windows 利用R定时抓取猫眼专业版电影票房

猫眼爬取专业评分的python

python爬取电影和美食数据实战

如何爬取猫眼网电影票房数据

一起学爬虫——使用xpath库爬取猫眼电影国内票房榜

python爬虫爬取猫眼电影数据

python爬取猫眼电影数据

猫眼 — 破解数字反爬获取实时票房

Python 爬取猫眼

爬取猫眼数据

爬虫实战（一）利用python爬取猫眼电影Top前100

python实战 scrapy爬取猫眼正在热映电影

Python爬虫项目实战-爬取猫眼电影

python爬取猫眼电影

爬取猫眼电影数据

爬取各种网站数据实战案例笔记

python----案例一：爬取猫眼电影排行榜数据

python爬取2019年猫眼电影并进行数据分析(一)

python战反爬虫：爬取猫眼电影数据 (一）（Requests, BeautifulSoup, MySQLdb,re等库)

Python爬取猫眼电影top100数据

Python Flask定时调度疫情大数据爬取全栈项目实战使用-12 动态实时拉取统计数据及时间

python反反爬，爬取猫眼评分

爬取中国票房网的年度票房的电影票房数据

requests+正则表达式爬取猫眼国内票房榜

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

Java基础复习_day13_Collection集合

2018.11.16 c语言学习经验

且看Java内置四大核心函数式接口

小程序云开发中数据库的数据分段和显示图片

python的函数

Web-JS进阶

【干货】C++常用代码积累笔记大全

Spring的ioc操作与 IOC底层原理

构建之法20191121-11 Scrum立会报告+燃尽图 07

Spring boot之Hello World访问404

每日归档

更多

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)