学习笔记：猫眼top100电影信息爬取

企业开发 2023-04-07 06:34:50 阅读次数: 0

学习笔记：猫眼top100电影信息爬取

获取网页源码

用网上随便查的User-agent作为浏览器代理

try:
        headers = {
    
    
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36'
        }
        response = requests.get(url, headers=headers)

正则表达式解析

pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'
                         + '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'
                         + '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)

括号用于在re.findall中获取所需信息，注意使用非贪心匹配 .*? 避免匹配过度导致信息缺失。
yield函数：代替return，使得返回的数据更加整齐。

写入文件

json.dumps将字典转换为字符串。（补充：loads将字符串转换为字典）

跨页面爬取

观察到猫眼网站top界面每个页面只有10个电影信息，而翻页Url信息改变如下：

http://maoyan.com/board/4?
翻页->
http://maoyan.com/board/4?offset=10

也就是说，offset每加10控制页面向后跳转一面，利用这一规律进行爬取：

for i in range(10):
        main(offset=i * 10)
        print(str(i*10 + 1) + " to " + str(i*10 +10) + " got!")
        time.sleep(1) #避免访问频次过高导致访问被限

虽然大部分是直接copy书上的实例，但还是满满的成就感！

猜你喜欢

转载自blog.csdn.net/natrick/article/details/114851049

学习笔记：猫眼top100电影信息爬取

爬取猫眼电影top100信息

python爬取猫眼电影TOP100信息

爬取猫眼电影Top100

猫眼电影Top100爬取

python：猫眼电影TOP100的电影爬取

Python爬取猫眼电影排行TOP100的电影

爬取猫眼电影top100电影

爬取猫眼电影网经典电影TOP100信息Markdown效果展示

python爬取猫眼电影TOP100榜并将电影信息写入到Excel

requests爬取猫眼电影top100

7.5爬取猫眼Top100电影名单

爬取猫眼电影TOP100榜

requests和lxml爬取猫眼电影TOP100

python爬虫爬取猫眼电影Top100

爬虫练习 | 爬取猫眼电影Top100

python爬虫，爬取猫眼电影top100

python爬取猫眼电影top100

python应用-爬取猫眼电影top100

爬虫六之爬取猫眼电影top100

python爬取猫眼电影的Top100

python爬虫入门 ✦ 爬取猫眼电影Top100

python爬虫入门 ✦ 爬取猫眼电影Top100

Python爬取猫眼电影top100数据

爬取猫眼电影榜单TOP100

python爬虫--猫眼电影TOP100榜爬取

python爬虫练习--爬取猫眼top100电影信息

40行代码爬取猫眼电影TOP100榜所有信息

(爬虫)通过正则和多进程的方式,简单爬取猫眼Top100电影信息

50行Python爬取猫眼电影TOP100榜单信息

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)