用EXCEL预处理一个多准则电影评分数据集

   现在先介绍一下所用的数据集,该数据集是从日本雅虎电影网站爬取的电影评分数据集,共有225045条,18列。

真正有用的只有电影名,用户名,总体评分,和

story role show image music

等5个准则的评分值。

现在想要的预处理结果是:

1,将不需要的列删去,

2,将含NULL值的记录删去,删除重复行

3,将整体评分的分值调整为0-5,

4,对电影和用户名进行编号,分别从1到N,

5,统计预处理后数据集信息。

=========================

首先用Excel完成这个过程。

1,手动删去不需要的列。由于B列和C列是同样数据的不同形式,D列和E列也是同样数据的不同形式,就选择保留数值较少的列。于是保留B和E列。B列是电影,E列是用户名。

2,使用筛选功能,对存在NULL的列进行筛选,然后删去所有包含NULL的行。一共删除了17108条记录。

之后,用删除重复项的功能,删除掉所有的列都相同的数据。

3,对整平评分的列进行处理,将评分范围调整到0-5,这就需要将total列每个数值都除20。在total列的旁边插入一列,然后在第一个单元格里输入=C2/20,之后回车就得到了第一个除之后的值。再双击该单元格的右下角,就可以自动填充该列所有的单元格,也就得到了想要的数据。删除不需要的C列即可。(在删除C列之前,复制D列并直接粘贴到原位置,选择只保留值,这样就清除了公式,删除C不会对D造成影响。)

4,(写在这一步之前,考虑到Excel的处理速度,为了不浪费时间,将第3步之后的数据只保留前2W条,进行后续操作的演示)

给电影和用户名添加从1开始到N的数字ID,替换掉电影名和用户名。

先做电影的,将movie列整体复制到表格后方,再在相邻的列命名一个movieID列。之后使用删除重复值的按钮,删除新的movie列的重复值,然后在O列前三个单元格分别填上123,之后双击填充到整列。

在此之后,就要用vlookup函数,为A列,也就是完整的电影名列进行数字ID匹配。

在A列后插入一列新单元,命名为movieid。

在该movieid列的第二个单元格,输入vlookup函数。如图:

后面的单元格,只需要双击B2的右下角自动填充即可。从图中可以看到,已经完成了所有movie列的数字ID赋值。

对于用户名列,采用同样的方法即可得到结果。

(相应的,一定要把通过公式得到的列复制再粘贴,选择只保留数值,否则删除后面的列的时候前面的值就没有了。)

5,统计预处理后的数据集的信息。

首先,先发一个处理好的数据集图。

到这一步之后,用数据透视表对数据集的信息进行统计。

因为评分数据主要是用在后面的多准则推荐算法中的,在这里对它们进行统计没有任何意义,故只对电影和用户名进行统计。

主要是看有多少条目,每个条目出现的次数。

可以看到,经过截取后的数据,一共还有1016部电影,6018个用户。

到此,一个基本的数据预处理已经完成了,可以被之后的算法研究所使用。

下一篇文章,将讲述如何用MySQL实现同样的操作。

猜你喜欢

转载自blog.csdn.net/youxinyuchu/article/details/83507679