统计学和机器学习之间的区别

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/eengel/article/details/52930470

最近做医学数据分析的结果展现,提到了两个问题:1. 机器学习方法相比较传统统计学方法而言,能产生什么新的结果?2.这些新的结果能不能用统计学理论来解释?

于是简单Google了一下。很不幸,没有找到专门针对医学分析的,倒是发现一篇博客,讲统计学与机器学习、数据科学的区别。个人觉得挺有道理的。摘录主要思想如下。

1.    统计学的主要特点?

文中提到,统计学家最重要的任务是处理由采样引起的变异性。由此为出发点,设计好的数据收集过程,量化不确定性,理解方法相关的统计参数。

个人理解,在数据全集很难获得的情况下,需要通过采样来选择某一部分的数据。这个采样的结果受随机性的影响,也就是说,数据是随机分布的,那采样就需要根据全集固有的随机分布来做。可是很不幸,全集的随机分布很难得到,于是就有种种估计的方法。而统计学也提供了相应的方法,去评估估计的方法是否是合理的、有可能反应全集的。

2.    统计学的主要应用领域

-      人口统计。无法做全集,只能做采样

-      医学临床试验。对结果的精确性和可解释性要求非常高,逻辑严密

-      小样本高维数据。比如基因数据。

3.    机器学习、数据科学的主要应用领域

-      大数据领域。能拿到数据全集的情况。不需要采样后再处理,直接对全集做一些描述性分析

-      大数据领域。做预测分析。数据足够大,收集过程引入的偏倚少。可以不处理不确定性

-      只要看结果。不需要参数估计。比如Netflix Prize竞赛。

-      对结果的精确性和严密性要求不高。比如搜索,自然语言翻译等。

这篇博客的观点对我来说还是很有价值的。统计学严谨、精确,但处理的数据量比较少。机器学习能处理大数据,但可解释性和逻辑严密性较差。接下来也许可以看看:机器学习的方法,如何用统计学概念解释?

猜你喜欢

转载自blog.csdn.net/eengel/article/details/52930470