自学python爬虫（四）Requests+正则表达式爬取猫眼电影 - 代码天地

自学python爬虫（四）Requests+正则表达式爬取猫眼电影

其他 2018-11-06 06:04:50 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq_38736612/article/details/81415661

前言
学了requests库和正则表达式之后我们可以做个简单的项目来练练手咯！先附上项目GitHub地址，欢迎star和fork，也可以pull request哦~
地址：https://github.com/zhangyanwei233/Maoyan100.git
正文开始哈哈哈

第一步、对目标站点分析

目标站点：http://maoyan.com/board/4
这里写图片描述

我们可以看到，网页每个界面展示10部电影，一共10页，注意！！！网页往下跳转时url的特点：
第一页：http://maoyan.com/board/4
第二页：http://maoyan.com/board/4?offset=10
第三页：http://maoyan.com/board/4?offset=20
……
我们不妨先来爬取第一页的数据，因为其他的都是类似的。
鼠标右键，审查元素查看网页源代码：
这里写图片描述
我们发现，每部电影的信息都在< d d>标签内，我们要爬取的数据信息有排名、链接、电影名、主演、上映时间、评分。

我们分析之后就要开始干活啦！

抓取网页内容

利用requests请求目标站点，得到单个网页HTML代码，返回结果。

正则表达式分析

根据HTML代码分析得到电影的名称、主演、上映时间、评分、图片链接等信息。

保存至文件

通过文件的形式将结果保存，每一部电影一个结果一行json字符串。

开启循环和多线程

对多页内容遍历，开启多线程快速抓取。

# 正则表达式
   pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)"'
                         '.*?name"><a.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">'
                         '(.*?)</p>.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)

项目源代码请到GitHub获取

猜你喜欢

转载自blog.csdn.net/qq_38736612/article/details/81415661

自学python爬虫（四）Requests+正则表达式爬取猫眼电影

爬虫学习：Requests+正则表达式爬取猫眼电影

【Python】Requests+正则表达式爬取猫眼电影TOP100

python实战笔记之（1）：Requests+正则表达式爬取猫眼电影

python爬虫知识点总结（九）Requests+正则表达式爬取猫眼电影

Python爬虫实战之Requests+正则表达式爬取猫眼电影Top100

爬虫从头学之Requests+正则表达式爬取猫眼电影top100

用Requests+正则表达式爬取猫眼电影

Requests+正则表达式爬取猫眼电影

Requests+正则表达式爬取猫眼电影前一百榜单

Requests+正则表达式爬取猫眼TOP100电影

requests+正则表达式爬取猫眼电影TOP100

Requests + 正则表达式爬取猫眼电影

requests正则表达式爬取猫眼电影

requests+正则表达式爬猫眼电影TOP100

requests+正则表达式爬取猫眼国内票房榜

python爬虫入门——爬取猫眼电影排行（使用requests库和正则表达式）

python正则表达式爬取猫眼电影

python-Requests + 正则表达式爬取猫眼电影

【初学python爬虫02】Python3用Requests+正则表达式爬取豆瓣电影Top250

python 爬虫正则表达式爬取猫眼电影top100榜

Python爬虫-利用正则表达式爬取猫眼电影

Python爬虫：正则表达式爬取猫眼电影

python爬虫之正则表达式爬取猫眼前100的电影（七）

利用requests库和正则表达式爬取猫眼电影

14-Requests+正则表达式爬取猫眼电影

爬取猫眼电影榜单Top100—利用requests、正则表达式

利用requests和正则表达式爬取猫眼Top250电影

python3.6 利用requests和正则表达式爬取猫眼电影TOP100

正则表达式爬取猫眼电影

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

周排行

购置笔记本常识

从源码看Spring Security之采坑笔记（Spring Boot篇）

大数据学习——高可用配置案例

如何避免选择不专业的建站公司?

Euclid's Game HDU - 1525（博弈）

面试笔记（六）---Js实现eventHandler

Windows 实例搭建的 FTP 在外网无法连接和访问

设计模式 : 桥接模式

USB 设备驱动开发之几个重要结构体分析

14-p14_sqrt求平方根

每日归档

更多

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)