项目:WeRateDogs推特数据报告
一、数据整理
1、收集数据
导入三个数据集文件。
2、评估数据
通过.head()、.info()评估3个表格的总体信息。然后分别对3个表进行评估,由于表3在收集数据时已经提取了有效信息,故不对其进行评估。
2.1 对 twitter_archive
表格:
- 查找 text 列中的转发信息,判断数量是否与 retweeted_status_id 列的数量是否相同;
- 查看 rating_numerator 列和 rating_denominator 列数值;
- 查看 name 列的有效性。
2.2 对 image_predictions
表格:
查看 *jpg_url* 列的重复值。
3、清理数据
3.1 整洁度
- 删除无用列:source、expanded_urls;
- doggo、floofer、pupper、puppo 四列可融合成一列;
- 将3个表格合并为一个表格。
3.2 质量
(1)twitter_archive
表格
- in_reply_to_status_id、in_reply_to_user_id 列数据缺失:删除;
- timestamp 列删除多余的字符串,修改错误的数据类型;
- text 转发信息无效:重新提取转发信息;
- retweeted_status_id、retweeted_status_user_id、retweeted_status_timestamp 列数据缺失:删除;
- rating_numerator 列、rating_denominator 列数值范围错误:根据比例重新修改;
- name 列有非名字模式的信息:重新提取名字;
- status 列信息缺失:重新提取status信息。
(2)image_predictions
表格
- jpg_url 列中删除重复信息。
二、数据分析和可视化
1、提出问题
- 不同地位的狗狗评分情况;
- 大众的转发次数、喜爱次数与狗狗评分之间的关系;
- 不同地位的狗狗受喜爱的程度;
- 不同品种的狗狗评分排名。
2、分析问题
- 由箱线图:floofer狗狗评分最高,然后是puppo狗狗、doggo狗狗、pupper狗狗。
- 由散点图:转发次数与被喜爱次数与评分均呈正相关关系。说明在一定程度上,当评分越高,会被大众所关注,从而转发次数也会增多,为更多人所认识,就会更多人喜爱它们。
- 由柱状图:狗狗受喜爱程度:floofer、puppo、doggo、puppet。
- 由折线图:golden_retrieverg品种的狗狗出现的次数最多,且平均评分最高,说明金毛不仅普遍,还很受大家的喜爱。其次是“微笑天使”samoyed,虽然出现的次数排在第8位,但是平均评分仅次于金毛。