003-理解数据分析过程

LESSON 3

 
我们将数据分析过程组织为五个步骤:提问、整理、探索、得出结论和传达结果。重点是清楚整个流程,不要去背每个步骤干什么,最有效的方法是来一遍。

第 1 步:提问
你要么获取一批数据,然后根据它提问,要么先提问,然后根据问题收集数据。在这两种情况下,好的问题可以帮助你将精力集中在数据的相关部分,并帮助你得出有洞察力的分析。

第 2 步:整理数据
你通过三步来获得所需的数据:收集,评估,清理。你收集所需的数据来回答你的问题,评估你的数据来识别数据质量或结构中的任何问题,并通过修改、替换或删除数据来清理数据,以确保你的数据集具有最高质量和尽可能结构化。

第 3 步:执行 EDA(探索性数据分析)
你可以探索并扩充数据,以最大限度地发挥你的数据分析、可视化和模型构建的潜力。探索数据涉及在数据中查找模式,可视化数据中的关系,并对你正在使用的数据建立直觉。经过探索后,你可以删除异常值,并从数据中创建更好的特征,这称为特征工程。

第 4 步:得出结论(或甚至是做出预测)
这一步通常使用机器学习或推理性统计来完成,不在本课程范围内,本课的重点是使用描述性统计得出结论。

第 5 步:传达结果
你通常需要证明你发现的见解及传达意义。或者,如果你的最终目标是构建系统,则通常需要分享构建的结果,解释你得出设计结论的方式,并报告该系统的性能。传达结果的方法有多种:报告、幻灯片、博客帖子、电子邮件、演示文稿,甚至对话。数据可视化总会给你呈现很大的价值。
 

数据分析过程练习

让我们通过对数据分析过程的每一步提问,来了解所有步骤。我们将使用来自 Kaggle 的单车共享需求 竞赛的数据。此数据集给出了自华盛顿特区实施“首都共享单车”计划以来的两年,自行车的每小时租金数据。下面是此数据前 5 行的屏幕截图。注意: 此数据集做了轻微修改。

在这里插入图片描述

使用下表来帮助你回答第一个问题。每个特征都是数据集中的一列。

特征 描述
日期时间 datetime 小时 + 时间戳
季节 season 1 = 春季、2 = 夏季、3 = 秋季、4 = 冬季
假期 holiday 该天是否为假日
工作日 workingday 该天是否既不是周末,也不是假日
天气 weather* 1、2、3、4(参见下面的描述)
温度 temp 摄氏度温度
环境温度 atemp "感觉"温度(摄氏度)
湿度 humidity 相对湿度
风速 windspeed 风速
游客 casual 非注册用户使用共享单车的数量
会员 registered 注册用户使用共享单车的数量
总计 count 总使用次数

*天气特征关键字
1 = 晴朗、少云、局部多云
2 = 薄雾 + 多云、薄雾 + 碎云、薄雾 + 少云、薄雾
3 = 小雪、小雨 + 雷雨 + 散云、小雨 + 散云
4 = 大雨 + 冰粒 + 雷雨 + 薄雾、雪 + 大雾

习题 1/5
提问步骤
根据上面给出的有可能影响每小时租用自行车数量的变量数据,可以提出哪些相关问题?(可多选)

扫描二维码关注公众号,回复: 4529321 查看本文章
  • 哪些属性在预测租用自行车的数量方面最为重要?
  • 哪种自行车类型更容易被租出去?
  • 给定车站是否应该增加车辆?以增加利润?
  • 如果目标是使整个星期的租用数量呈现平稳状态,共享单车公司应该在一周中的哪天开展促销活动?

在这里插入图片描述
25%、50%、75%指的是四分位数(Quartile)。

在这里插入图片描述
上面是表中的数据类型

在此图中,有4列是 float - 浮点型,7列是 int - 整型,1列是object - 对象。其中datetime经过打印查看,确定类型为 str - 字符串。

习题 2/5
整理步骤

在继续分析前,可以看到此 Kaggle 单车共享数据有何需要解决的潜在问题?(可多选)

  • 日期未采用日期格式
  • 一些值缺失
  • 温度值远远超出了地球上的现实范围
  • 天气不能用数值表示
    在这里插入图片描述
    租赁的自行车数量与星期几、温度和湿度的散点图

习题 3/5
探索步骤

根据这些散点图,这三个特征中的哪一个似乎最有助于预测计数?(提示:可以考虑下 x 轴数据和 y 轴数据的关系,如果有明显的相关性,比如 y 随 x 的增大而变大或减小,则说明有助于预测;反之,如果数据并无明显趋势,则说明无法凭借这个特征预测)

名词解释: Day of week 星期几 Temp 温度 Humidity 湿度

  • 星期几
  • 温度
  • 湿度

在这里插入图片描述
计数与温度散点图,及下一个问题的最佳匹配直线

习题 4/5
得出结论步骤

根据这个自行车租赁与温度关系回归图表,如果温度从 2 摄氏度升至 30 摄氏度,你认为会有多少额外的自行车被租用?

  • 50辆直行车
  • 250 辆自行车
  • 500辆直行车
  • 600辆直行车

习题 5/5
传达结果步骤

下面的哪种方法能够最有效地传递你从共享单车数据中得出的结论?

  • 温度与湿度的散点图

  • 一份书面报告,详细说明了预测自行车租赁量的最重要变量

  • 不同温度的回归线

 
声明:以上为在Udacity上课的时的课件整理

猜你喜欢

转载自blog.csdn.net/qq_37281522/article/details/85015674