【零基础学爬虫】爬虫实战:爬取猫眼Top100电影

准备

之前讲解过Requests库的使用,以及正则表达式基础。今天我们将两者结合起来,实现第一个爬虫实战:使用Requests和正则表达式爬取猫眼电影的Top100
###爬取流程
(1)目标分析
打开网址:https://maoyan.com/board/4?offset=0,发现100部一篇一共分了10页,每一页10部影片:涵盖影片的名字,主演,时间以及评分。
经过分析发现,分页的控制具体体现在url中:

  • 第一页的url:https://maoyan.com/board/4?offset=0
  • 第二页的url:https://maoyan.com/board/4?offset=10
  • 第三页的url:https://maoyan.com/board/4?offset=20

  • 规律很简单,下一页的offset是在前一页的基础上加了10,具体实现时是需要使用range函数产出0到90,间隔10的序列,然后拼接到url上就可以了。
    (2)页面代码的分析
    右键->检查:

    页面源码发现:每一部影片的信息都在"
    "标签中,所以在正则表达式中只需要匹配到dd标签,然后提取响应的数据即可,正则也比较容易。值得注意的是,评分分了两部分:一个是整数部分,另外一个是小数部分。
    (3)流程框架

源码和结果图:

源码

扫描下方二维码,发送关键词“top100”即可获取本文的完整源码和详细程序注释
扫码关注,及时获取更多精彩内容。(博主今日头条大数据工程师)
公众号专注:互联网求职面经javapython爬虫大数据等技术、海量资料分享:公众号后台回复“csdn文库下载”即可免费领取【csdn】和【百度文库】下载服务;公众号后台回复“资料”:即可领取5T精品学习资料java面试考点java面经总结,以及几十个java、大数据项目资料很全,你想找的几乎都有

猜你喜欢

转载自blog.csdn.net/liewen_/article/details/89378331
今日推荐