使用Python进行全面的数据探索--House Prices - Advanced Regression Techniques

“人生最困难的事情是认识自己”

这句话出自米利都的泰勒斯。泰勒斯是希腊/Phonecian哲学家、数学家和天文学家,他被认为是西方文明中第一个娱乐和从事科学思想的人(来源:https://en.wikipedia.org/wiki/Thales)

我不会说了解你的数据是数据科学中最困难的事情,但它很耗时。因此,很容易忽略这第一步,过早地跳入水中。

所以我试着在跳进水里之前学会游泳。根据Hair et al.(2013)的“检查您的数据”一章,我尽了最大努力对数据进行全面但不详尽的分析。我远没有报告对这个内核的严格研究,但我希望它对社区有用,所以我分享了我是如何将这些数据分析原理应用于这个问题的。

尽管我给这些章节起了奇怪的名字,我们在这个内核中做的事情是这样的:

理解问题所在。我们来看看每个变量,对它们的意义和重要性做一个哲学分析。
单变量的研究。我们只关注因变量('SalePrice'),并尝试更多地了解它。
多变量的研究。我们会试着理解因变量和自变量之间的关系。
基本的清洁。我们将清理数据集并处理丢失的数据、异常值和分类变量。
测试的假设。我们将检查我们的数据是否满足大多数多变量技术所要求的假设。
现在,是玩耍的时候了!

1. 所以…我们能期待什么?
为了理解我们的数据,我们可以查看每个变量,并尝试理解它们的含义以及与这个问题的相关性。我知道这很耗时,但它会给我们的数据集带来味道。

为了在我们的分析中有一些规律,我们可以创建一个包含以下列的Excel电子表格:

变量-变量名。
类型-变量类型的标识。该字段有两个可能的值:“数值”或“分类”。我们所说的“数值”是指变量的值是数字,而“分类”是指变量的值是类别。
分段-确定变量的分段。我们可以定义三个可能的部分:建筑、空间或位置。当我们说“建筑”时,我们指的是与建筑的物理特性相关的变量(例如:“OverallQual”)。当我们说“空间”时,我们指的是一个报告房子空间属性的变量(例如:“TotalBsmtSF”)。最后,当我们说“位置”时,我们指的是一个变量,它提供了关于房子所在位置的信息。“社区”)。
期望-我们对“SalePrice”变量影响的期望。我们可以使用“高”、“中”和“低”作为可能值的分类量表。
结论-在快速查看数据后,我们对变量的重要性得出结论。我们可以使用与“期望”相同的分类尺度。
评论-我们想到的任何一般性评论。
虽然“类型”和“细分”只是为了将来可能的参考,但“期望”一栏很重要,因为它将帮助我们发展“第六感”。为了填满这一栏,我们应该阅读所有变量的描述,并一个接一个地问自己:

我们在买房子的时候会考虑这个变量吗?(例如,当我们考虑我们梦想中的房子时,我们会关心它的“砌体贴面类型”吗?)
如果是,这个变量有多重要?(例如,在外观上使用“优秀”材料而不是“差”材料会产生什么影响?用“Excellent”代替“Good”?)。
这个信息是否已经在其他变量中描述过了?(例如,如果“LandContour”给出了土地的平坦度,我们真的需要知道“LandSlope”吗?)
在这个令人生畏的练习之后,我们可以过滤电子表格并仔细查看具有“高”“期望”的变量。然后,我们可以在这些变量和“sales price”之间绘制一些散点图,填充“Conclusion”栏,这只是对我们期望的修正。

经过这个过程,我总结出以下变量在这个问题中可以发挥重要作用:

OverallQual(这是一个我不喜欢的变量,因为我不知道它是如何计算的;一个有趣的练习是使用所有可用的其他变量来预测“OverallQual”)。
YearBuilt。
TotalBsmtSF。
GrLivArea。
我最终得到了两个“建筑”变量(“OverallQual”和“YearBuilt”)和两个“空间”变量(“TotalBsmtSF”和“GrLivArea”)。这可能有点出乎意料,因为它违背了房地产的格言,即所有重要的是“位置,位置和位置”。这种快速的数据检查过程可能对分类变量有点苛刻。例如,我期望“邻居”变量更相关,但在数据检查之后,我最终排除了它。也许这与使用散点图而不是箱形图有关,后者更适合分类变量可视化。我们可视化数据的方式经常影响我们的结论。

然而,这次练习的主要目的是思考一下我们的数据和期望,所以我认为我们达到了我们的目标。现在是时候“少说点,多做点”了。让我们摇一摇吧!

2. 首先:分析“销售价格”
“销售价格”是我们追求的理由。就像我们去参加派对一样。我们总有去那里的理由。通常,女人就是这个原因。(免责声明:根据你的喜好,适合男人、跳舞或喝酒。)

用女人的比喻,让我们来编一个小故事,“我们是如何相遇的”。

一切都是从我们的卡格尔派对开始的,当时我们在找舞伴。在舞池里找了一会儿,我们看到一个女孩在吧台附近穿舞鞋。这是她来跳舞的信号。我们花了很多时间做预测建模和参加分析竞赛,所以与女孩交谈并不是我们的超能力之一。即便如此,我们还是尝试了一下:

“嗨,我是卡格利!”你呢?“SalePrice”?多漂亮的名字啊!你知道“销售价格”,你能给我一些关于你的数据吗?我刚刚开发了一个模型来计算两个人成功恋爱的概率。我想把它应用到我们身上!”

偏离正态分布。

有明显的正偏度。

显示尖峰。

Comprehensive data exploration with Python | Kaggleicon-default.png?t=N5F7https://www.kaggle.com/code/pmarcelino/comprehensive-data-exploration-with-python#5.-Getting-hard-core

猜你喜欢

转载自blog.csdn.net/m0_63309778/article/details/131232787