大数据学习入门必备规划,想学习大数据?这才是完整的大数据学习体系

大数据方向的工作目前分为三个主要方向:

01.大数据工程师

02.数据分析师

03.大数据科学家

04.其他(数据挖掘本质算是机器学习,不过和数据相关,也可以理解为大数据的一个方向吧)

一、大数据工程师的技能要求

二、大数据学习路径

三、学习资源推荐(书籍、博客、网站)

一、大数据工程师的技能要求

总结如下:

必须技能10条:

01.Java高级编程(虚拟机、并发)

02.Linux 基本操作

03.Hadoop(此处指HDFS+MapReduce+Yarn )

04.HBase(JavaAPI操作+Phoenix )

05.Hive

06.Kafka

07.Storm

08.Scala

09.Python

10.Spark (Core+sparksql+Spark streaming )

进阶技能6条:

11.机器学习算法以及mahout库加MLlib

12.R语言

13.Lambda 架构

14.Kappa架构

15.Kylin

16.Aluxio

二、学习路径

很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:199427210,有大量干货(零基础以及进阶的经典实战)分享给大家学习。
 

第一阶段:

01.Linux学习

02.Java 高级学习(《深入理解Java虚拟机》、《Java高并发实战》)

第二阶段:

03.Hadoop

04.HBase

05.Hive

06.Scala

07.Spark

08.Python

第三阶段:

对应技能需求,到网上多搜集一些资料就ok了,

我把最重要的事情(要学什么告诉你了),

剩下的就是你去搜集对应的资料学习就ok了

当然如果你觉得自己看书效率太慢,你可以网上搜集一些课程,跟着课程走也OK 。这个完全根据自己情况决定,如果看书效率不高就上网课,相反的话就自己看书。

07.至于书籍当当、京东一搜会有很多,其实内容都差不多 那么如何从零开始规划大数据学习之路! 大数据的领域非常广泛,往往使想要开始学习大数据及相关技术的人望而生畏。大数据技术的种类众多,这同样使得初学者难以选择从何处下手。本文将为你开始学习大数据的征程以及在大数据产业领域找到工作指明道路,提供帮助。

如何开始学习大数据?

人们想开始学习大数据的时候,最常问我的问题是,“我应该学Hadoop(hadoop是一款开源软件,主要用于分布式存储和计算,他由HDFS和MapReduce计算框架组成的,他们分别是Google的GFS和MapReduce的开源实现。由于hadoop的易用性和可扩展性,因此成为最近流行的海量数据处理框架。), 分布式计算,Kafka(Kafka是由LinkedIn开发的一个分布式基于发布/订阅的消息系统),NoSQL(泛指非关系型的数据库)还是Spark(Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处)?”

而我通常只有一个答案:“这取决于你究竟想做什么。”

与大数据相关的工作?

(1)大数据系统研发工程师:负责大数据系统研发工作,包括大规模非结构化数据业务模型构建、大数据存储、数据库架构设计以及数据库详细设计、优化数据库构架、解决数据库中心建设设计问题。他们还负责集群的日常运作、系统的监测和配置、Hadoop与其他系统的集成。

(2)大数据应用开发工程师:负责搭建大数据应用平台、开发分析应用程序。他们熟悉工具或算法、编程、包装、优化或者部署不同的MapReduce事务。他们以大数据技术为核心,研发各种基于大数据技术的应用程序及行业解决方案。

(3)大数据分析师:运用算法来解决分析问题,并且从事数据挖掘工作。他们最大的本事就是能够让数据道出真相;此外,他们还拥有某个领域的专长,帮助开发数据产品,推动数据解决方案的不断更新。

(4)数据可视化工程师:具备良好的沟通能力与团队精神,责任心强,拥有优秀的解决问题的能力。他们负责在收集到的高质量数据中,利用图形化的工具及手段的应用,一目了然地揭示数据中的复杂信息,帮助企业更好的进行大数据应用开发,发现大数据背后的巨大财富。

你适合大数据什么方向呢?

现在我们已经了解了行业中可供选择的职业种类,让我们想办法来确定哪个领域适合你。这样,我们才能确定你在这个行业中的位置。通常来说,基于你的教育背景和行业经验可以进行分类。

例1:“我是一名计算机科学毕业生,不过没有坚实的数学技巧。”

你对计算机科学或者数学有兴趣,但是之前没有相关经验,你将被定义为一个新人。

例2:“我是一个计算机科学毕业生,目前正从事数据库开发工作。”

你的兴趣在计算机科学方向,你适合计算机工程师(数据相关工程)的角色。

大数据学习之路

核心是,大部分大数据技术都是用Java或Scala编写的。但是别担心,如果你不想用这些语言编写代码,那么你可以选择Python或者R,因为大部分的大数据技术现在都支持Python和R。

因此,你可以从上述任何一种语言开始。 我建议选择Python或Java。

接下来,你需要熟悉云端工作。 这是因为如果你没有在云端处理大数据,没有人会认真对待。 请尝试在AWS,softlayer或任何其他云端供应商上练习小型数据集。 他们大多数都有一个免费的层次,让学生练习。如果你想的话,你可以暂时跳过此步骤,但请务必在进行任何面试之前在云端工作。

接下来,你需要了解一个分布式文件系统。最流行的分布式文件系统就是Hadoop分布式文件系统。在这个阶段你还可以学习一些你发现与你所在领域相关的NoSQL数据库。

那么我们一起来看看大数据经典学习路线(及供参考)

第一阶段:linux系统

本阶段为大数据学习入门基础课程,帮大家进入大数据领取打好Linux基础,以便更好的学习Hadoop、habse、NoSQL、saprk、storm等众多技术要点。

另:目前企业中无疑例外是使用Linux来搭建或部署项目的

第二阶段:大型网站高并发处理

本阶段的学习是为了让大家能够了解大数据的源头,数据从而而来,继而更好的了解大数据。通过学习处理大型网站高并发问题反向的更加深入的学习Linux,同事站在了更高的角度去触探架构

第三阶段:Hadoop学习

1、Hadoop分布式文件系统:HDFS

详细解剖HDFS,了解其工作原理,打好学习大数据的基础

2、Hadoop分布式计算框架:MapReduce

MapReduce可以说是任何一家大数据公司都会用到的计算框架,也是每个大数据工程师应该熟练掌握的

3、Hadoop离线体系:Hive

hive是使用SQL尽心计算的Hadoop框架,工作中经常会使用,也是面授的重点

4、Hadoop离线计算体系:HBASE

HBASE的重要性不言而喻,即便是工作多年的大数据工程师也是需要去重点学习HBASE性能优化的

第四阶段:zookeeper开发

zookeeper在分布式集群中的地位越来越突出,对分布式应用的开发也提供了极大的便利,学习zookeeper的时候,我们主要学习zookeeper的深入,客户端开发、日常运维、web界面监控等等。学好此部分的内容对后面技术的学习也是至关重要的。

第五阶段:elasticsearch分布式搜索

第六阶段:CDH集群管理

第七阶段:storm实时数据处理

本阶段覆盖storm内部机制和原理,掌握从数据采集到实时极端到数据存储再到前台展示,一人讲所有的工作全部完成,知识覆盖面广

第八阶段:Redis缓存数据库

对Redis做个全部的学习,包括其特点、散列集合类型、字符串类型等等,最后到优化,做个详细的学习

第九阶段:spark核心部分

本阶段内容覆盖了spark生态系统的概述及其编程模型,深入内核的研究,Spark on Yarn,Spark Streaming流式计算原理与实践,Spark SQL,Spark的多语言编程以及SparkR的原理和运行。

在了解了以上知识点后,云计算机器学习的部分也是至关重要的。通常在云计算这部分内容,我们会对Docker、虚拟化KVM、云平台OpenStack做个了解和学习,防止在以后的工作中会遇到

好了,大数据的学习体系就简单的为大家分享到这里。

猜你喜欢

转载自my.oschina.net/u/3804900/blog/2870216
今日推荐