爬取场库网站遇到的问题

其他 2018-09-05 22:12:21 阅读次数: 0

采用解析网页源码的方式
然后通过xpath表达式去匹配视频的信息：标题、作者、图片的url、视频的url、评分、视频简介、点赞数、评论数、标签、类型。

我在匹配这些信息时遇到两大问题：

第一个问题：获取到网页源码之后，根本找不到视频的url，因为视频是通过js来播放的。

很巧的是我发现了播放视频的关键代码。结果是这样的：

用了xpath表达式和正则表达式

第二个问题：每个页面最多只能爬取16个：

selenium是web的自动化测试工具，可以在无界面浏览器上模拟人的操作，比如滚动条下滑，这样每个页面可以爬取更多的数据。

PhantomJS是基于webkit的无界面浏览器

猜你喜欢

转载自blog.csdn.net/qq_39530754/article/details/82252006

爬取场库网站遇到的问题

爬取小视频网站视频并下载——场库网站视频批量下载

scrapy爬取招聘网站，items转换成dict遇到的问题

requests库爬取需要登录的网站

网站爬取工具

爬取网站附件

爬取菜谱网站

爬取动态网页时遇到的问题

rvest爬取鸡蛋期货数据（遇到的问题）

python 爬取<a>标签内href的方法及遇到的问题

python 使用 scrapy 爬取数据遇到问题整理

python3.x+requests 爬取网站遇到中文乱码的解决方案

Python3.6+requests 爬取网站遇到中文乱码怎么办？ä½èï¼å¾®è½¯äºæ´²ç ç©¶é¢

Python3.5+requests 爬取网站遇到中文乱码怎么办？ä½èï¼å¾®è½¯äºæ´²ç ç©¶é¢

用wget爬取网站

使用scrapy爬取网站

[Python]爬取mzitu网站

异步爬取网站的图片

Python爬取网站数据

爬虫--爬取网站链接

Python爬取网站图片

并发爬取网站图片

爬取壁纸网站图片

爬取招聘网站

爬取需要登录的网站？

关于网站爬虫的爬取

node爬取网站图片

python 爬取网站图片

爬取有问题

python 爬取新浪网站 NBA球员最近2个赛季库里前20场数据

今日推荐

wlnmp 一键安装包更新 240522

ChatGPT 严重宕机，结果被造谣“遭遇俄罗斯黑客入侵”

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

周排行

mongodb 下载与安装与初步使用

20190530

iOS录制回放神器AutoTouch使用介绍

同心圆猜数字游戏

mamp pro安装redis扩展各个步骤截图

windows10下安装docker报错：error during connect

跨域授权 Federated Identity Pattern

js时间比较大小

pandas to_csv()使用方法

从JDK源码角度看Byte

每日归档

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)