大数据工程师的学习路线图

大数据是什么?

      每个企业每天都会生成数据,数据量根据企业业务的复杂度而变化。如果业务量大,我们可以很容易地使用常用的软件工具来管理,但是如果业务体系庞大,那么就将这些数据合理归档整合。这就是我们称之为“大数据”的原因。大数据能让用户处理大量的原始数据,并根据业务需要进行合理分析报表,以备将来参考和预测。大数据有助于管理数据,并为将来的有用目的存储全部数据。数据首先在不同类型中生成,包括非结构化数据、半结构化数据和结构化数据。大数据获取任何原始数据并将其处理成结构化数据公司利用他们的过去和现在的数据来预测未来。大数据帮助企业获得利润,并在全球范围内扩大业务活动,并提供大数据。它不仅预测了未来的收益,还有助于预测未来的问题和趋势。它有助于企业做出重大决定。

第一步:分布式计算框架

掌握hadoop和spark分布式计算框架,了解文件系统、消息队列和Nosql数据库,学习相关组件如hadoop、MR、spark、hive、hbase、redies、kafka等;

第二步:算法和工具

学习了解各种数据挖掘算法,如分类、聚类、关联规则、回归、决策树、神经网络等,熟练掌握一门数据挖掘编程工具:Python或者Scala。目前主流平台和框架已经提供了算法库,如hadoop上的Mahout和spark上的Mllib,你也可以从学习这些接口和脚本语言开始学习这些算法。

第三步:数学

补充数学知识:高数、概率论和线代

第四步:项目实践

  • 1)开源项目:tensorflow:Google的开源库,已经有40000多个star,非常惊人,支持移动设备;
  • 2)参加数据竞赛
  • 3)通过企业实习获取项目经验


如果仅仅是做 大数据开发和运维,则可以跳过第二步和第三步;
如果是侧重于应用已有算法进行
数据挖掘,那么第三步也可以先跳过。

转载:http://bigdata.51cto.com/art/201805/572952.htm

猜你喜欢

转载自blog.csdn.net/sinat_36710456/article/details/86163051