大数据开发知识汇总

大数据开发需要学习的知识很多，目前基本包括如下知识Linux、Zebra、Hadoop、Flume、Hive、Hbase、Phoenix、Storm、Kafka、Scala、Spark

Linux：

Linux是一套免费使用和自由传播的类Unix操作系统，是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。它能运行主要的UNIX工具软件、应用程序和网络协议。它支持32位和64位硬件。Linux继承了Unix以网络为核心的设计思想，是一个性能稳定的多用户网络 操作系统 。

Zebra：

是早期用来处理大量数据的 一个项目 ，该项目有多台一级引擎，每个一级引擎负责一部分数据，每个一级引擎对自己负责的那部分数据进行处理，统一发往二级引擎进行汇总的操作，最终二级引擎将数据存储到关系型数据库中。是下面知识的基础。

Hadoop：

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。

HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。

HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce为海量的数据提供了计算。

Flume：

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的 海量日志采集、聚合和传输的系统 ，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

当前Flume有两个版本Flume 0.9X版本的统称Flume-og，Flume1.X版本的统称Flume-ng。由于Flume-ng经过重大重构，与Flume-og有很大不同，使用时请注意区分。

Hive：

hive是基于Hadoop的一个 数据仓库工具 ，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

Hbase：

HBase是一个分布式的、面向列的开源 数据库 ，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。如果你对大数据开发感兴趣，想系统学习大数据的话，可以加入大数据技术学习交流扣扣群：522+数字189+数字307，欢迎添加，私信管理员，了解课程介绍，获取学习资源。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

Phoenix：

Apache的Phoenix使OLTP（联机事务处理过程）和Hadoop运行分析这些低延迟应用提供了以下两个优点：

使标准SQL和JDBC APIs能够具备完全的ACID（指数据库事务正确执行的四个基本要素的缩写）事务处理能力。

使后期绑定和从以HBase为后台存储的NoSQL云数据库进行schema-on-read（读时模式）具备灵活性。

Apache Phoenix与其他Hadoop产品如 Spark, Hive, Pig, Flume, and Map Reduce完全兼容。

Storm：

是Twitter开源的分布式实时 大数据处理框架 ，最早开源于github，从0.9.1版本之后，归于Apache社区，被业界称为实时版Hadoop。随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍，比如网站统计、推荐系统、预警系统、金融系统(高频交易、股票)等等，大数据实时处理解决方案（流计算）的应用日趋广泛，目前已是分布式技术领域最新爆发点，而Storm更是流计算技术中的佼佼者和主流。

Kafka：

是一种高吞吐量的分布式发布 订阅消息系统 ，它可以处理消费者规模的网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop的一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消费。

Scala：

是一门多范式的 编程语言 ，一种类似java的编程语言，设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。scala设计语法非常简洁，代码量非常少。

Spark：

Spark没有直接执行代码，构建DAG图，根据DAG图开始分配task，分发到各个work进行执行。Spark内部把命令分成两类，transformation/action。遇到action命令时，才会把前面的命令一起来执行。批量执行，吞吐量高！

Spark是Hadoop升级 ，互相补充。部分替代。Hadoop主要应用于离线处理，Spark相对实时处理（秒级别），Storm真正实时（亚秒级别）。

xyzkenan

原创文章 117 获赞 16 访问量 1万+

关注私信

大数据开发知识汇总

猜你喜欢