WeRateDogs推特数据报告

项目:WeRateDogs推特数据报告

一、数据整理

1、收集数据

导入三个数据集文件。

2、评估数据

通过.head()、.info()评估3个表格的总体信息。然后分别对3个表进行评估,由于表3在收集数据时已经提取了有效信息,故不对其进行评估。

2.1 对 twitter_archive 表格:

  1. 查找 text 列中的转发信息,判断数量是否与 retweeted_status_id 列的数量是否相同;
  2. 查看 rating_numerator 列和 rating_denominator 列数值;
  3. 查看 name 列的有效性。

2.2 对 image_predictions 表格:

查看 *jpg_url* 列的重复值。

3、清理数据

3.1 整洁度

  • 删除无用列:source、expanded_urls;
  • doggo、floofer、pupper、puppo 四列可融合成一列;
  • 将3个表格合并为一个表格。

3.2 质量

(1)twitter_archive 表格
  • in_reply_to_status_id、in_reply_to_user_id 列数据缺失:删除;
  • timestamp 列删除多余的字符串,修改错误的数据类型;
  • text 转发信息无效:重新提取转发信息;
  • retweeted_status_id、retweeted_status_user_id、retweeted_status_timestamp 列数据缺失:删除;
  1. rating_numerator 列、rating_denominator 列数值范围错误:根据比例重新修改;
  2. name 列有非名字模式的信息:重新提取名字;
  3. status 列信息缺失:重新提取status信息。
(2)image_predictions表格
  • jpg_url 列中删除重复信息。

二、数据分析和可视化

1、提出问题

  • 不同地位的狗狗评分情况;
  • 大众的转发次数、喜爱次数与狗狗评分之间的关系;
  • 不同地位的狗狗受喜爱的程度;
  • 不同品种的狗狗评分排名。

2、分析问题

  • 由箱线图:floofer狗狗评分最高,然后是puppo狗狗、doggo狗狗、pupper狗狗。
  • 由散点图:转发次数与被喜爱次数与评分均呈正相关关系。说明在一定程度上,当评分越高,会被大众所关注,从而转发次数也会增多,为更多人所认识,就会更多人喜爱它们。
  • 由柱状图:狗狗受喜爱程度:floofer、puppo、doggo、puppet。
  • 由折线图:golden_retrieverg品种的狗狗出现的次数最多,且平均评分最高,说明金毛不仅普遍,还很受大家的喜爱。其次是“微笑天使”samoyed,虽然出现的次数排在第8位,但是平均评分仅次于金毛。

猜你喜欢

转载自blog.csdn.net/weixin_41605837/article/details/84254041