Movielens/IMDB电影数据分析(三) - 代码天地

Movielens/IMDB电影数据分析(三)

其他 2019-03-03 02:41:06 阅读次数: 0

接着上一篇文章的内容。本文主要进行数据清洗：

电影时长不是数值，而是字符串
电影流派不是原子数据，很难提取特定的流派做分析。
上映年份格式修正
投票数修正为整型

本来以为自己爬取的数据存在两个瑕疵，但是在实际应用中发现，还有一个巨大的瑕疵：desecribe的时候，发现Votes一列不能被describe。

进行info查看信息的时候，发现Votes是一组对象，不为整型。使用int()函数强制转换的时候，出现报错。这才想起，爬取的数据为带逗号的数字，在python中被识别为字符串。

1.将电影时长转换为整型

遍历电影时长，将时长进行分裂（以空格分裂），分裂后成为列表，列表的第一个元素即为时长，转换为浮点型替换原有时长。

2.电影流派不是原子数据，很难提取特定的流派做分析。

首先创建一个空的set(set函数用于创建无序不重复元素集)。

然后，遍历Genres,Genres中的每个元素又为一个列表，遍历列表中的每个元素，利用逗号进行分裂，对分裂后的元素去除空格，然后再进行排序。

为每个流派创建一个单独的列，利用布尔型表示其流派信息。

3.上映年份格式修正

先使用正则表达式匹配年份，然后将匹配的年份由字符串转换为整型，再遍历列表进行替换。

4.投票数修正为整型

先使用逗号分裂字符串，分裂后的对象为一个列表，遍历列表，利用join函数对列表元素进行拼接，然后遍历整个data进行替换。

猜你喜欢

转载自blog.csdn.net/qq_41996090/article/details/87901924

Movielens/IMDB电影数据分析(三)

Movielens/IMDB电影数据分析(二)

Movielens/IMDB电影数据分析(一)

数据分析实例-MovieLens 1M 数据集

数据分析电影

电影数据分析

MovieLens 1M之python数据分析练习

python数据分析实战一：IMDB Top 250

豆瓣电影数据分析

IMDB电影排行爬取分析

《利用python进行数据分析》————MovieLens 1M数据集

初学数据分析-电影分析2

【Keras】IMDB电影情感分析（三种神经网络）

数据分析案例 4 电影数据分析统计

Rotten Tomatoes 电影数据分析

初识sparklyr—电影数据分析

数据分析案例之电影推荐

豆瓣电影(二)：数据分析

jupyter notebook 电影数据分析

电影Top25数据分析

基于hadoop豆瓣电影数据分析

MovieLens电影推荐系统

数据分析（三）

数据分析(三)

【数据分析实战】数据分析及可视化实战：豆瓣电影数据分析

利用python进行数据分析——第二章引言（1）：利用pandas对MovieLens数据集简单处理

数据分析案例-电影数据可视化分析

用LSTM模型做imdb电影评论情感分析

数据分析（一）豆瓣华语电影分析

数据分析实战——电影《少年的你》影评分析

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)