怎么进行大数据的入门学习?

 数据科学并没有一个独立的学科体系,统计学,机器学习,数据挖掘,数据库,分布式计算,云计算,信息可视化等技术或方法来对付数据。但从狭义上来看,我认为数据科学就是解决三个问题:

1. data pre-processing;
2. data interpretation;
3.data modeling and analysis. 
这也就是我们做数据工作的三个大步骤:
1、原始数据要经过一连串收集、提取、清洗、整理等等的预处理过程,才能形成高质量的数据;
2、我们想看看数据“长什么样”,有什么特点和规律;
3、按照自己的需要,比如要对数据贴标签分类,或者预测,或者想要从大量复杂的数据中提取有价值的且不易发现的信息,都要对数据建模,得到output。
这三个步骤未必严谨,每个大步骤下面可能依问题的不同也会有不同的小步骤,但按我这几年的经验来看,按照这个大思路走,数据一般不会做跑偏。

yyk.familydoctor.com.cn/21523/yyk.familydoctor.com.cn/21524/jbk.39.net/yiyuanzaixian/aynjyy/jbk.39.net/yiyuanzaixian/cqxdnzyy/


猜你喜欢

转载自blog.51cto.com/14148276/2335906