【零基础学爬虫】爬虫实战：爬取猫眼Top100电影 - 代码天地

【零基础学爬虫】爬虫实战：爬取猫眼Top100电影

其他 2019-04-20 15:31:03 阅读次数: 0

准备

之前讲解过Requests库的使用，以及正则表达式基础。今天我们将两者结合起来，实现第一个爬虫实战：使用Requests和正则表达式爬取猫眼电影的Top100。
###爬取流程
（1）目标分析
打开网址：https://maoyan.com/board/4?offset=0，发现100部一篇一共分了10页，每一页10部影片：涵盖影片的名字，主演，时间以及评分。
经过分析发现，分页的控制具体体现在url中：

第一页的url：https://maoyan.com/board/4?offset=0
第二页的url：https://maoyan.com/board/4?offset=10
第三页的url：https://maoyan.com/board/4?offset=20
…
规律很简单，下一页的offset是在前一页的基础上加了10，具体实现时是需要使用range函数产出0到90，间隔10的序列，然后拼接到url上就可以了。
（2）页面代码的分析
右键->检查：

页面源码发现：每一部影片的信息都在"
…
"标签中，所以在正则表达式中只需要匹配到dd标签，然后提取响应的数据即可，正则也比较容易。值得注意的是，评分分了两部分：一个是整数部分，另外一个是小数部分。
（3）流程框架

源码和结果图：

源码

扫描下方二维码，发送关键词“top100”即可获取本文的完整源码和详细程序注释
扫码关注，及时获取更多精彩内容。（博主今日头条大数据工程师）
公众号专注：互联网求职面经、java、python、爬虫、大数据等技术、海量资料分享：公众号后台回复“csdn文库下载”即可免费领取【csdn】和【百度文库】下载服务；公众号后台回复“资料”:即可领取5T精品学习资料、java面试考点和java面经总结，以及几十个java、大数据项目，资料很全，你想找的几乎都有

猜你喜欢

转载自blog.csdn.net/liewen_/article/details/89378331

【零基础学爬虫】爬虫实战：爬取猫眼Top100电影

python爬虫爬取猫眼电影Top100

爬虫练习 | 爬取猫眼电影Top100

python爬虫，爬取猫眼电影top100

爬虫六之爬取猫眼电影top100

python爬虫入门 ✦ 爬取猫眼电影Top100

python爬虫入门 ✦ 爬取猫眼电影Top100

python爬虫--猫眼电影TOP100榜爬取

python爬虫实战：利用pyquery爬取猫眼电影TOP100榜单内容-1

python爬虫实战：利用beautiful soup爬取猫眼电影TOP100榜单内容-1

【python爬虫自学笔记】（实战）----爬取猫眼电影榜单Top100

python3爬虫爬取猫眼电影TOP100（含详细爬取思路）

python爬虫(实战)——爬取python菜鸟教程100道例题、猫眼电影top100、今日头条图集。

爬虫从头学之Requests+正则表达式爬取猫眼电影top100

python爬虫：爬取猫眼TOP100榜的100部高分经典电影

我要爬爬虫(6)-爬取猫眼Top100电影

Python爬虫实战之Requests+正则表达式爬取猫眼电影Top100

python爬虫入门新手向实战 - 爬取猫眼电影Top100排行榜

爬取猫眼电影Top100

猫眼电影Top100爬取

python爬虫练习--爬取猫眼top100电影信息

python 爬虫正则表达式爬取猫眼电影top100榜

(爬虫)通过正则和多进程的方式,简单爬取猫眼Top100电影信息

<scrapy爬虫>爬取猫眼电影top100详细信息

再一次写爬虫 - 爬取猫眼电影 Top100 榜

# [爬虫Demo] pyquery+csv爬取猫眼电影top100

python爬虫-利用requests库爬取猫眼电影top100

【网络爬虫实战】猫眼电影Top100

网络爬虫-猫眼电影top100

爬虫_抓取猫眼电影TOP100

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)