大数据分析师的卓越之道

大数据时代的数据分析区别于普通的数据分析,这是由大数据的特性所决定的,为了适应大数据的时代的发展,数据分析师也应该转变一些分析的思想和观念。


大数据时代的要求:



数据需要流动起来才有价值:



大数据典型的场景:


当数据量、基础设施以及数据价值逐渐变大时,对知识挖掘和发现的方法也需要不断的改进。


在量子论的世界里,一切都是不确定的,薛定谔的猫和海森堡的测不准准则都告诉我们这是个不确定的世界。大数据时代,尽管大数据要求要全集,不要部分;要混杂,不要精确;要相关不要因果,但大数据也还是测不准的。在硬件基础设施不断升级的过程中,大数据分析师也要与时俱进,跟上时代的步伐。


对大数据分析师的要求:



从原有的数据分析过程来看大数据时代的分析:



假设:

原来的分析步骤是先设定一个假设,再去获取相关的数据,在大数据时代,我们需要先获得数据,在对数据进行一定发掘后从相关性中获取假设,再进一步的反过来验证。从若干相关性中获取假设,需要一定的先验知识,这些先验知识来源广泛的阅读、与人交流的碰撞,以及相应的业务知识。


收集:

大数据时代要求获取数据的全集,并且这些数据中包含噪音是必然的,数据的类型也多样的,包括结构化、半结构化以及非结构化。原来的企业数据仓库(Enterprise Data WareHouse)也逐渐变成了企业数据中心(Enterprise Data Hub/Lake ),原来是设定一定模式后再去获取相应结构的数据,现在是先有数据并且这些数据也是在实时的变化,因此也要求系统可以实现数据的结构变化调整,从一种形式变成另一种形式。

数据也是有一定的生命周期,并不是说所有的数据都有很大的价值,就像学习的知识一样,在72小时内不去温习的话,效果就不那么好了。数据也是这样,刚产生的数据价值最大。同时,数据也需要交换和流动,只有与其他人分享数据,数据才升值。


数据准备:

 大数据时代数据量很重要,但数据质量却是重中之重。

                           


分析:

 大数据分析和挖掘涉及到的知识面广,包括数据库、机器学习、统计、kDD、AI、pattern Recegnition、Nurocomputing等,数据分析主要涉及两方面的工作:数据查询和分析;复杂的线性代数。大数据也越来越拥抱云,很多工具都集成到云环境中去了,甚至出现了ML PipeLine 机器学习流水线的概念。数据分析师需要具备一项或几项工具装备如SAS、R、SQL、Python等。但究竟像刺猬一样‘一招鲜,吃遍天’,还是像狐狸一样‘一把钥匙开一把锁’?在大数据时代最好还是懂得各项技术结合使用。


模型的复杂度与问题匹配:

奥卡姆剃刀原理(简单有效原理)

数据不可名状的功效:

简单的模型+大数据>复杂的模型+小数据?那是不是简单的模型就一定有效?

首先得看你怎么定义‘简单’,是公式简单?解释简单?


能解释和利用数据的最简单模型


参数模型、线性模型、判断型模型适合于小数据,非参数型、非线性模型、生产性模型适合于大数据。但这并不说明大数据不能使用参数模型、线性模型、判断型模型。对传统模型,可能无法感知长尾上的信号,对大数据适合的模型计算复杂度一般都很高。有时候可以考虑模型的混合尤其是在数据竞赛中,但在实际应用中一般很少用到。大数据时代需要交互式的数据查询,这就需要很快的处理速度。

                                


人的角色:Human Machine Intelligence

人在数据分析中地位不可完全替代,人与机器的搭配才能获得最佳性能:人人合作、人机协作、外包、众包、人类计算、协作。


数据科学是一门艺术

STEM:Science Technology Engieering Mathematics

STEAM:Science Technology Engieering Art Mathematics

不仅是视觉上的艺术,也是语言的艺术,要有讲好故事的能力(drama,detail,dialog)

"Stroy telling and ideas worth spreading"


最后再完整的看看完整的大数据分析流程:



DataAnswer,玩数据,我们是认真的!DataAnswer

猜你喜欢

转载自blog.csdn.net/JavaChaoCo/article/details/51474386