数据驱动一切，转行大数据该如何学习hadoop？

大数据中最不可忽视的就是hadoop，尤其是在如今的数据时代。世界500强企业中有近70%的企业在使用hadoop进行大数据的建设，所以对于转行者而言，学好大数据就显的至关重要，但hadoop应该如何学习才最高效呢？

其实，对于每一项开发技术的学习，只要把握两点就可以完成高效学习，其一、就是有专业的、系统的学习课程；其二、就是要实践，毕竟实践出真知，当然这里强调就是努力二字。其实，说到底Hadoop只是一项分布式系统的工具，学习的时候不要害怕遇到问题，问题是最好的老师，当你遇到的问题越来越少的时候，就说明已经学的差不多了。关于hadoop具体的学习路线，主要分为以下几步：

第一、我们要掌握Linux的安装及基本操作、Python安装及编程基础、java基础

需要学习Linux的常用命令、基本网络配置、进程管理、shell语法;Python的常用语法，能够基于Python搭建一个常用的Server服务器和java的基础知识。

第二、搭建Hadoop分布式环境

我们要做的是在自己的电脑上安装Linux，然后准备环境nat配置，搭建Hadoop集群先让Hadoop在自己的电脑上跑起来。使用VMware来搭建。这时候我们会Host配置、IP配置、SSH免密登录等。

第三、学习HDFS分布式文件系统

这一步要学习架构分析、容灾容错策略、local数据策略、数据块概念、机架感应，功能逻辑实现等。要真正的去敲敲，掌握Linux下HDFS Shell常用命令的使用。

第四、学习MapReduce计算框架

MapReduce是Hadoop核心编程模型。在Hadoop中，数据处理核心就是MapReduce程序设计模型。这一步需要学的东西很多，大家一定要有耐心，把MR的知识学牢固。首先我们需要学习MR的基本原理、任务执行流程、Shuffle策略。自己动手写一个MR任务，来实现wordcount。然后要学习表单join、表单查询、数据清洗、全局排序、多目录输入输出、自定义partition分区，掌握二分法算法。接下来学习自然语言处理方法(NLP)，掌握如何提取关键词，TF-IDF算法。这里我们可以实践一下，统计文本中的词频。学习中文分词，分词的质量直接影响数据挖掘的质量。

第五、学习Strom流式计算

Storm是一个开源分布式实时计算系统，它可以实时可靠地处理流数据。这一步我们要知道Hadoop和Storm的区别，知道他们如何进行互补。了解Storm的体系架构、Zookeeper在架构中的作用和数据流处理的过程。弄懂Storm的工作原理和核心组件(Spout、Bolt)

第六、学习Zookeeper分布式协作服务

这一步我们学会数据管理的树形结构，学会根据应用场景选择不同类型的节点、节点权限管理ACL和监控机制。学会Zookeeper开源自带Client工具的Shell使用，开发java代码实现不同类型的节点进行新建、修改、删除和节点的监控。

第七、学习数据仓库工具Hive

这一步要了解Hive的体系架构和其与mysql的对比。要掌握Mysql的基本知识、系统搭建标准SQL语(增删查改)。

第八、学习分布式存储系统Hbase

这一步要掌握Hbase的体系架构(HMaster、HRegionServer、HStore、HFile、HLog)，物理存储、数据逻辑存储、核心功能模块。细化一点要掌握Hbase表结构设计、Shell操作(增删查改)、javaAPI操作、数据迁移、备份与恢复。与MR结合实现批量导入与导出，与Hive结合使用，集群管理和性能调优。

第九、学习Spark

这一步要掌握SPark的编程模型、运行框架、作业提交、缓存策略、RDD、MLLib。

第十、学习Scala语言

这一步要掌握Scala的常用语法、函数、元组等操作，不熟Spark。

第十一、学习Spark开发技术

这一步要能够熟练使用MLLib，能够自己开发Scala的Spark任务，完成表格join、连接和文本串过滤等。

第十二、学习推荐系统

前面我们学了那么多，最终所学的技术要能落地，我学的是现在主流的推荐系统，现在各大公司都需要这方面的人才。这一步我们可以找一些案例在学习，要掌握主流的推荐算法，Content Base、Collab Filter。

a.学习基于MR的协同过滤算法

b.学习Mahout，掌握Mahout的适用场景、环境搭建与部署，学习基于Mahout的协同过滤算法，与MR进行效果对比。

C.学习基于Spark的协同过滤算法

学习hadoop主要的过程就这些，只要你按着步骤去一步步的学习，一步步的敲代码，那么一定能够学好hadoop，当然，如果有一个前辈如果能够帮助你学习的话，那么你的学习效率也能够再次得到提升。转行大数据其实并不难，只要将知识点细化，然后一点一点的去学习，那么，很快你就能够成为大数据领域内的专业人才。

本文转自：海牛学院

数据驱动一切，转行大数据该如何学习hadoop？

猜你喜欢