大数据学习方法及主要内容

版权声明:个人博客网址 https://29dch.github.io/ GitHub网址 https://github.com/29DCH,欢迎大家前来交流探讨和star+fork! 转载请注明出处! https://blog.csdn.net/CowBoySoBusy/article/details/84788508

目前来说,大数据的学习核心就是hadoop生态圈(虽然目前最流行的是Spark生态圈)及相关的技术。
主要的技能树-语言篇:
Hadoop本身是用java开发的,所以对java的支持性非常好,所以java是必须的语言。
数据挖掘:
因为Python开发效率较高所以我们使用Python来进行任务,当然,目前很强大的scala也是一种不错的备选。
因为Hadoop是运行在Linux系统上的,所以还需要掌握Linux的相关知识。

学习介绍:
学习阶段:
1.Hadoop生态架构技术
语言基础
java:掌握javase知识,多理解和实践在Java虚拟机的内存管理、以及多线程、线程池、设计模式、并行化就可以,不需要深入掌握。
linux:系统安装 (命令行界面和图形界面)、基本命令、网络配置、Vim编辑器、进程管理、Shell脚本、虚拟机的菜单熟悉等等。
python:基础语法,数据结构,函数,条件判断,循环等基础知识。
环境搭建
在这个阶段,我们需要学习使用wm在电脑搭建完全分布式的虚拟机!1主2从
VMware虚拟机、Linux系统 (Centos6.5/7)、Hadoop安装包,这里准备好Hadoop完全分布式集群环境。
大数据生态圈的基石hadoop
MapReduce
MapReduce分布式离线计算框架,是Hadoop核心编程模型。主要适用于大批量的集群任务,由于是批量执行,故时效性偏低。
HDFS1.0/2.0
Hadoop分布式文件系统(HDFS)是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
Yarn (Hadoop2.0)
前期了解即可,Yarn是一个资源调度平台,主要负责给任务分配资源。Yarn是一个公共的资源调度平台,所有满足条件的框架都可以使用Yarn来进行资源调度。
分布式里面的大管家 zookeeper
Zookeeper
Zookeeper是很多大数据框架的基础,它是集群的管理者。监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终,将简单易用的接口和性能高效、功能稳定的系统提供给用户.
大数据领域的数据库
Hive
Hive是一个数据仓库,所有的数据都是存储在HDFS上的。使用Hive主要是写Hql,非常类似于Mysql数据库的Sql。其实Hive在执行Hql,底层在执行的时候还是执行的MapReduce程序。
Hbase
Hbase是一个Nosql数据库,是一个Key-Value类型的数据库,是高可靠、面向列的、可伸缩的、分布式的数据库。适用于非结构化的数据存储,底层的数据存储在HDFS上。

2.大数据的采集系统
Flume
Flume是一个日志采集工具,常见的就是采集应用产生的日志文件中的数据,一般有两个流程。一个是Flume采集数据存储到Kafka中,方便Storm或者SparkStreaming进行实时处理。另一个流程是Flume采集的数据存储到HDFS上,为了后期使用hadoop或者spark进行离线处理。
强大的消息中间件 kafka
Kafka
kafka是一个消息中间件,在工作中常用于实时处理的场景中,作为一个中间缓冲层。
实时计算框架
Storm
Storm是一个实时计算框架,和MR的区别就是,MR是对离线的海量数据进行处理,而Storm是对实时新增的每一条数据进行处理,是一条一条的处理,可以保证数据处理的时效性。
高性能计算引擎spark
Spark
Spark是专为大规模数据处理而设计的快速通用的计算引擎,其是基于内存的迭代式计算。Spark保留了MapReduce的优点,而且在时效性上有了很大提高。

3.两个重要模块
Spark Streaming
Spark Streaming是实时处理框架,数据是一批一批的处理。
Spark Hive
基于Spark的快速Sql检索。Spark作为Hive的计算引擎,将Hive的查询作为Spark的任务提交到Spark集群上进行计算,可以提高Hive查询的性能。

算法:
数据挖掘算法
中文分词
开源分词库的离线和在线应用
自然语言处理
文本相关性算法
推荐算法

基于CB、CF,归一法,Mahout应用。
分类算法
NB、SVM
回归算法
LR、Decision Tree
聚类算法
层次聚类、Kmeans
神经网络与深度学习
NN、Tensorflow

猜你喜欢

转载自blog.csdn.net/CowBoySoBusy/article/details/84788508