爬取场库网站遇到的问题

版权声明:未经允许,禁止转载 https://blog.csdn.net/qq_39530754/article/details/82252006
  • 采用解析网页源码的方式

  • 然后通过xpath表达式去匹配视频的信息:标题、作者、图片的url、视频的url、评分、视频简介、点赞数、评论数、标签、类型。

我在匹配这些信息时遇到两大问题:

  • 第一个问题:获取到网页源码之后,根本找不到视频的url,因为视频是通过js来播放的。

很巧的是我发现了播放视频的关键代码。结果是这样的:

    

用了xpath表达式正则表达式

  • 第二个问题:每个页面最多只能爬取16个:

       selenium是web的自动化测试工具,可以在无界面浏览器上模拟人的操作,比如滚动条下滑,这样每个页面可以爬取更多的数据 。

        PhantomJS是基于webkit的无界面浏览器

        

猜你喜欢

转载自blog.csdn.net/qq_39530754/article/details/82252006