【数据科学】如何锐化你的数据直觉

随着机器学习和人工智能研究的最新进展,这些天定期成为头条新闻,数据科学已经成为一个真正的主流兴趣领域,这一点不足为奇。

对于具有分析意识的人来说,这无疑是一个很好的职业选择,需要扎实的编程技巧和深入的技术知识。

然而,在显示窃取神经网络和分布式计算的行为背后是一些基本的统计实践,每个有抱负的数据科学家应该非常熟悉。

您可以阅读特定项目所需的最新编程框架或科学文献的进展。但是,没有捷径可以获得有效数据科学家的基础统计知识。

只有练习,耐心,也许只是一点点学习 - 努力,才能真正提高你的“数据直觉”。


目录

简约原则

永远持怀疑态度

了解你的方法

沟通


 

简约原则

在介绍性统计课程中重复到了陈词滥调的地步,但英国统计学家乔治·博克斯的话今天可能比以往任何时候都更有意义:

“所有模型都错了,但有些模型很有用”

这个陈述实际上意味着什么?

这意味着在寻求对现实世界系统进行建模时,必须以牺牲解释力为代价来简化和概括。

现实世界凌乱嘈杂,难以理解最精细的细节。因此,统计建模不是为了获得完美的预测能力,而是用最小的必要模型来实现最大的预测能力。

对于那些刚接触数据世界的人来说,这个概念看起来可能是违反直觉的。为什么不在模型中包含尽可能多的术语?当然,额外的条款只能为模型增加进一步的解释力吗?

嗯,是的......没有。您只需关心那些带来统计上显着增加解释力的术语。

考虑可以适合给定数据集的不同类型的模型。

最基本的是null模型,它只有一个参数 - 响应变量的总体平均值(加上一些随机分布的erro r)。

该模型假定响应变量不依赖于任何解释变量。相反,它的值完全由关于整体均值的随机波动来解释。这显然限制了模型的解释力。

极性相反的概念是饱和模型,其为每个单个数据点具有一个参数。在这里,你有一个完美的模型,但是如果你没有任何新的数据,它就没有解释力。

每个数据点包括一个术语也忽略了以任何有意义的方式简化。再次 - 不完全有用。

右边是一个空模型,左边和一个饱和模型。两种模型都不允许有用的解释。

显然,这些是极端的情况。你应该在两者之间寻找一个模型 - 一个能很好地拟合数据并具有良好解释力的模型。您可以尝试拟合最大模型。该模型包括所考虑的所有因素和交互条款的术语。

例如,假设您有一个响应变量y,您希望将其作为解释变量x 1 和x 2 的函数进行建模,乘以系数β。最大模型看起来像这样:

y =截距+β1x1 +β2x2 +β3x 1 x 2+误差

这个最大模型有望很好地拟合数据,并提供良好的解释力。它包括每个解释变量的一个术语和一个交互项x 1x 2。

从模型中删除项将增加总体剩余偏差或模型预测未能考虑的观察到的变化的比例。

但是,并非所有条款都相同。您可以删除一个(或多个)术语,而不会发现统计上显着的偏差增加。

这些术语可以被认为是无关紧要的,并从模型中删除。您可以逐个删除无关紧要的术语(记住重新计算每一步的剩余偏差)。重复此操作,直到所有术语保持统计显着性。

现在你已经达到了最小的适当模型。每个术语的系数β的估计值显着不同于零。用于到达此处的逐步消除方法称为“逐步”回归。

支持这种简化模型的哲学原理被称为简约原则

它与中世纪哲学家威廉的奥卡姆着名的启发式奥卡姆的剃刀有一些相似之处。这就是这样的:“给出两个或多个同样可接受的现象解释,与引入最少假设的那个一起工作。”

换句话说:你能以最简单的方式解释一些复杂的东西吗?可以说,这是数据科学的决定性追求 - 有效地将复杂性转化为洞察力。

永远持怀疑态度

假设检验(如A/B检验)是一个重要的数据科学概念。

简单地说,假设检验通过将问题减少到两个相互排斥的假设来工作,并且在哪个假设下询问给定检验统计量的观察值是最可能的。当然,检验统计量是从一组适当的实验或观察数据中计算出来的。

当涉及到假设检验时,通常会询问您是接受还是拒绝零假设

通常,您会听到人们将零假设描述为令人失望的东西,甚至是实验失败的证据。

也许它源于如何向初学者传授假设检验,但似乎许多研究人员和数据科学家对零假设有潜意识偏见。他们试图拒绝它,支持所谓更令人兴奋,更有趣,另类的假设

这不仅仅是一个轶事问题。关于科学文献中的出版偏见问题,已经撰写了整篇研究论文。人们只能想知道这种倾向在商业环境中如何表现出来。

然而事实是:对于任何设计合理的实验或完整的数据集,接受零假设应该与接受替代方案一样有趣。

实际上,零假设是推论统计的基石。它定义了我们作为数据科学家所做的工作,即将数据转化为洞察力。如果我们没有过多地选择通过什么样的调查结果,那么见解是没有价值的,正是由于这个原因,在任何时候都持怀疑态度是值得的。

考虑到“意外地”拒绝零假设(至少在天真地应用频率论方法时)是多么容易,这尤其如此。

数据挖掘(或“p-hacking”)可以抛出各种无意义的结果,但这些结果在统计上显着。在多次比较不可避免的情况下,没有理由不采取措施来减少I型错误(误报或“看不到真正存在的效果”)。

  • 首先,在统计测试方面,选择一个本质上谨慎的测试。检查是否正确满足了测试对数据的假设。
  • 研究校正方法也很重要,例如Bonferroni校正。然而,这些方法有时因过于谨慎而受到批评。它们可以通过产生太多的II型错误(假阴性或“忽略实际存在的效应”)来降低统计 功效。
  • 查找结果的“null”解释。您的采样/数据收集程序有多适合?你能排除任何系统错误吗?莫不是的任何影响幸存者偏差自相关 回归均值
  • 最后,您发现的任何潜在关系有多可信?无论p值多低,都不要拿任何面值!

怀疑主义是健康的,一般来说,始终注意对数据的空解释是一种好习惯。

但要避免偏执狂!如果您已经很好地设计了实验,并谨慎地分析了您的数据,那么请继续并将您的发现视为真实!

了解你的方法

最近的技术和理论进步为数据科学家提供了一系列强大的新工具,用于解决即使在十年或两年前也无法解决的复杂问题。

围绕机器学习的这些进步有很大的兴趣,并且有充分的理由。但是,忽略将它们应用于给定问题时可能存在的任何限制都非常容易。

例如,神经网络在分类图像和识别手写方面可能非常出色,但它们绝不是解决所有问题的完美解决方案。首先,他们很容易过度拟合 - 也就是说,对训练数据过于熟悉,无法推广到新案例。

也是他们的不透明度。神经网络的预测能力通常以牺牲透明度为代价。由于功能选择的内部化,即使网络进行了准确的预测,您也不一定了解它是如何得出答案的。

在许多商业和商业应用中,理解“如何和为什么”通常是分析项目最重要的结果。为了预测准确性而放弃这种理解可能是也可能不是值得做出的权衡。

同样,依靠复杂的机器学习算法的准确性很诱人,但它们绝对不是绝对可靠的。

例如,Google的Cloud Vision API  - 通常非常令人印象深刻 - 即使是图像中的少量噪音也很容易被欺骗。相反,另一篇引人入胜的研究论文展示了深度神经网络如何“看到”那些根本不存在的图像

人类1 - 零机器。为图像添加一点噪音可能会欺骗Google的Cloud Vision API。通过TheRegister.co.uk

你抽了几个什么......?!DNN有时可以显示非常生动的想象力。图片来自Nguyen等,2014年。阅读关于arXiv的论文

这不仅仅是需要谨慎使用的尖端机器学习方法。

即使采用更传统的建模方法,也需要注意满足关键假设。如果不是怀疑的话,总是眼睛外推超出训练数据的范围,至少要谨慎。根据您绘制的每个结论,总是询问您的方法是否合理。

这并不是说不要相信任何方法在所有-只是要知道在任何时候,为什么你使用一个方法而上,什么样的相对优点/缺点可能。

作为一般规则,如果你不能提出你正在考虑的方法的至少一个缺点,那么在继续之前进一步研究它。始终使用最简单的工具来完成工作。

了解何时适合使用给定方法是否适合数据科学是一项关键技能。这是一种随着经验和对方法的真正理解而提高的技能。

沟通

沟通是数据科学的本质。与学科相比,您的目标受众将是您确切领域中受过高度训练的专家,商业数据科学家的观众可能会成为其他领域的专家。

如果沟通不畅,即使是世界上最好的见解也没什么价值。许多有抱负的数据科学家来自学术/研究背景,并将用于与技术专业的受众进行沟通。

然而,在商业环境中,不能过分强调以一般受众理解和使用的方式解释您的发现是多么重要。

例如,您的结果可能与组织内的一系列不同部门相关 - 从营销,运营到产品开发。每个成员都将成为各自工作领域的专家,并将从您的发现的清晰,简明和相关的摘要中受益。

与实际结果一样重要的是您的发现的已知限制。确保您的受众了解工作流程中的任何关键假设,缺失数据或不确定程度。

陈词滥调“一张图片胜过千言万语”在数据科学中尤其如此。为此,数据可视化工具非常宝贵。

Tableau等软件或RgD3.jsggplot2等库是非常有效地传递复杂数据的好方法。它们与任何技术概念一样值得掌握。

图形设计原则的一些认识将大大有助于使您的图表看起来更加智能和专业。

一定要写清楚。进化已经将我们人类塑造成充满潜意识偏见的易受影响的生物,我们本来就更倾向于相信更好的呈现,写得好的信息。

有时,理解概念的最佳方式是自己与之互动 - 因此,可能值得学习一些前端网络技能来制作观众可以玩的互动视觉效果。没有必要重新发明轮子。像D3.js和R's Shiny这样的库和工具使您的任务变得更加容易。

 

原文:https://medium.freecodecamp.org/how-to-develop-your-data-instincts-95d4d7fad9ba

猜你喜欢

转载自blog.csdn.net/ChenVast/article/details/82863149