【机器学习入门系列】第二章 探索性分析

欢迎来到我们的7部分数据科学和应用机器学习迷你课程!

在上一章中,我们看到了整个机器学习工作流程的概述。我们看到数据科学的“80/20”包括5个核心步骤。

在本章中,我们将深入探讨这些核心步骤中的第一步:  探索性分析

不应将此步骤与数据可视化或摘要统计混淆。那些只是工具......意味着结束。

适当的探索性分析是关于回答问题。它是关于从你的数据集中提取足够的见解,以便你在杂草中迷路之前纠正。

在本指南中,我们将介绍要查找的见解。让我们开始吧。

 

为什么要提前探索数据集?

探索性分析的目的是  “了解”数据集。提前完成这项工作将使项目的其余部分更加顺畅,主要有三种方式:

  1. 您将获得有关数据清理的宝贵提示(可以创建或破坏您的模型)。
  2. 您将会想到特征工程的想法(可以将您的模型从优秀变为优秀)。
  3. 您将获得数据集的“感觉”,这将有助于您传达结果并产生更大的影响。

然而,对机器学习的探索性分析应该是快速,有效和果断的 ......不长并且抽出来!

不要跳过这一步,但也不要卡在上面。

你看,有无限可能的图表,图表和表格,但你只需要少量 “足以”了解数据就可以使用它。

在本课程中,我们将向您展示可提供最大收益的可视化效果。

 

从基础知识开始

首先,您需要回答有关数据集的一组基本问题:

  • 我有多少观察?
  • 有多少功能?
  • 我的功能有哪些数据类型?它们是数字吗?分类?
  • 我有目标变量吗?

 

基本信息

知道你在做什么。

示例观察

然后,您将要显示数据集中的示例观察。这将使您对每个功能的值有“感觉”,这是检查一切是否有意义的好方法。

以下是我们的机器学习大师班的Project 2中使用的房地产数据集的示例(您可以向右滚动以查看更多列):

 

  tx_price 平方英尺 year_built 批量 财产种类 exterior_walls 屋顶 地下室 餐馆 杂货 夜生活 咖啡馆 购物 arts_entertainment beauty_spas active_life 中年的 已婚 college_grad 财产税 保险 median_school num_schools tx_year
0 295850 1 1 584 2013 0 公寓/公寓/联排别墅 木壁板 为NaN 为NaN 107 9 三十 19 89 6 47 58 33.0 65.0 84.0 234.0 81.0 9 3.0 2013
1 216500 1 1 612 1965年 0 公寓/公寓/联排别墅 组成瓦片 1.0 105 15 6 13 87 2 26 14 39.0 73.0 69.0 169.0 51.0 3.0 3.0 2006年
2 279900 1 1 615 1963年 0 公寓/公寓/联排别墅 木壁板 为NaN 为NaN 183 13 31 三十 101 10 74 62 28.0 15.0 86.0 216.0 74.0 8 3.0 2012
3 379900 1 1 618 2000 33541 公寓/公寓/联排别墅 木壁板 为NaN 为NaN 198 9 38 25 127 11 72 83 36.0 25.0 91.0 265.0 92.0 9 3.0 2005年
4 340000 1 1 634 1992年 0 公寓/公寓/联排别墅 为NaN 为NaN 149 7 22 20 83 10 50 73 37.0 20.0 75.0 88.0 30.0 9 3.0 2002年

显示数据集中的示例的目的不是执行严格的分析。相反,它是 为数据集获得  定性的“感觉”

  • 列有意义吗?
  • 这些列中的值是否有意义?
  • 这些值是否合适?
  • 丢失的数据将是基于快速眼球测试的一个大问题?

 

绘制数值分布

接下来,绘制数字要素的分布可能非常有启发性。

通常,快速而脏的直方图网格   足以理解分布。

以下是一些需要注意的事项:

  • 意外的分布
  • 潜在的异常值没有意义
  • 应该是二进制的特征(即“想要指示变量”)
  • 边界没有意义
  • 潜在的测量误差

此时,您应该开始记录您想要做的潜在修复。如果某些内容看起来不合适,例如您的某个功能中存在潜在的异常值,那么现在是向客户/关键利益相关方询问或者深入挖掘的好时机。

但是,我们会等到Data Cleaning进行修复,以便我们能够保持步骤的有序性。

直方图网格

 

绘制分类分布

无法通过直方图显示分类要素。相反,您可以使用  条形图

特别是,您需要注意  稀疏类,这些类是具有非常少量观察的类。

顺便说一句,“类”只是分类特征的唯一值。例如,以下条形图显示了名为“exterior_walls”的特征的分布。所以Wood Siding,Brick和Stucco都是这个功能的类。

酒吧情节

无论如何,回到稀疏类......正如你所看到的,'exterior_walls'的 一些类  有很短的条形。那些是稀疏的课程。

在构建模型时,它们往往会出现问题。

  • 在最好的情况下,它们不会对模型产生太大影响。
  • 在更糟糕的情况下,它们可能导致模型过度拟合

因此,我们建议您   稍后组合 或  重新分配其中一些类。我们更喜欢将其保存到Feature Engineering(第4课)。

 

绘图分段

分段是观察分类特征和数字特征之间关系的有效方法。

箱形图 允许您这样做。

以下是您可以从下图中获得的一些见解。

  • 单户住宅的中位交易价格(框中间垂直条)远高于公寓/公寓/联排别墅。
  • 最小最大的交易价格是两个阶级之间的可比性。
  • 事实上,圆形分钟($ 200k)和最大($ 800k)表明可能的数据截断 ...
  • ...在以后评估模型的普遍性 时,记住这一点非常重要  !

箱形图

 

研究相关性

最后,相关性允许您查看数字要素与其他数字要素之间关系

相关性是介于-1和1之间的值,表示两个要素一致移动的程度。您无需记住数学计算它们。只要知道以下直觉:

  • 相关意味着当一个特征增加时,另一个特征增加。例如孩子的年龄和身高。
  • 相关意味着当一个特征增加时,另一个特征减少。例如,学习的时间和参加的人数。
  • -1或1附近的相关性表明关系密切
  • 接近0的人表示关系薄弱
  • 0表示没有关系

相关  热图可  帮助您可视化此信息。这是一个例子(注意:所有相关性都乘以100):

相关热图

一般来说,你应该注意:

  • 哪些特征与目标变量密切相关?
  • 其他功能之间是否存在有趣或意想不到的强相关性?

同样,您的目标是获得对数据的直觉,这将在整个工作流程的其余部分帮助您。

 

章节测验

在探索性分析步骤结束时,您将对数据集,数据清理的一些注释以及可能的特征工程想法有很好的理解。

陆浩!

没有人有心告诉杰瑞,他发现的只是“巴哈马捣碎的土豆”周刊特别...


这是一个简短的测验来检查你得到了一切:

  • 什么类型的功能可以有稀疏类?你会如何检查它们?
  • 如果'sqft'  (物业的大小)与'浴室'  (浴室的#)有0.68的相关性,  这意味着什么  ?
  • 通过查看数据集中的示例观察,可以进行3次健全性检查?

 

原文:https://elitedatascience.com/exploratory-analysis

 

 

 

猜你喜欢

转载自blog.csdn.net/ChenVast/article/details/81280689