Python学习--爬取豆瓣爱情分类前20部电影信息练习 - 代码天地

Python学习--爬取豆瓣爱情分类前20部电影信息练习

其他 2020-03-17 10:01:10 阅读次数: 0

之前的爬虫用的都是java，这次想利用python来爬取网页信息。

首先进入豆瓣中：https://movie.douban.com/

右击检查，选择network中xhr属性，点击爱情分类的电影

看到这里对应的request url的响应网页，复制https://movie.douban.com/j/chart/top_list?type=13&interval_id=100%3A90&action=&start=0&limit=20

查看对应request header：

将对应的信息复制之后，设置为json格式的header以便python发送请求

接着将代码写入对应的python中，html是自己定义的一个模块

执行之后输入json结果

发现有错误

检查片头得返回的结果采用了压缩格式

将对应的header中的参数删除了之后再次执行

显示出对应爬取的json的信息

可以看到信息已经成功显示。

我们将信息放到对应的标准化的在线解析json的网站看正不正确

可以看到爬出来的数据的豆瓣电影中爱情的电影一致

接着对网页中的对应链接进行提取

可以看到对应电影网页的url网址在json中的url中

对url中的信息进行遍历，查看是否能正确输出信息

输出的信息如下

信息正确遍历

接着进入霸王别姬的网页，对里面影评的消息进行分析。

可以发现霸王别姬的简介在这个区域范围里面

这里采用正则表达式对里面的信息进行爬取

则用(?<=<span property="v:summary" class>)[\s\S]*?(?=</span>)

同样用上述步骤

设置正则表达式的匹配串：

(?<=<span class="short">)[\s\S]*?(?=</span>)

则综上之后爬虫的代码是：

然后我们看到直接对网页进行爬取的结果

爬取的结果如下所示:

猜你喜欢

转载自www.cnblogs.com/halone/p/12452803.html

Python学习--爬取豆瓣爱情分类前20部电影信息练习

爬取豆瓣电影评分前250部电影

python爬虫，爬取豆瓣电影信息

python爬虫爬取豆瓣电影信息

python爬虫（一）爬取豆瓣电影排名前50名电影的信息

python3爬取豆瓣排名前250电影信息

爬取豆瓣电影信息

Python爬取豆瓣动作电影好评前100名

Python爬取豆瓣高分电影前250名

python爬取豆瓣电影“华语”分类下的电影基本信息（提取xhr中的JSON信息）

python scrapy爬虫练习(1) 爬取豆瓣电影top250信息

爬取豆瓣电影排名前250部电影并且存入Mongo数据库

我的第一个python爬虫：爬取豆瓣top250前100部电影

Python爬取豆瓣电影

python爬虫-爬取爱情公寓电影（2018）豆瓣短评并数据分析

Python爬虫入门 | 2 爬取豆瓣电影信息

python爬取豆瓣电影Top250的信息

python3爬虫 —— 爬取豆瓣电影信息

Python实现的爬取豆瓣电影信息功能案例

Python爬虫入门 | 爬取豆瓣电影信息

python项目-爬取豆瓣top250电影信息

python爬虫——爬取豆瓣top250电影信息

豆瓣电影---按分类爬取

Python练习三：爬取豆瓣电影分类排行榜 - 动作片top10%

到豆瓣爬取电影信息

scrapy爬取豆瓣电影信息

简单爬虫爬取豆瓣电影信息

爬取豆瓣网电影的数据信息

爬虫爬取豆瓣高分电影信息

怎么爬取豆瓣电影信息

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)