大数据相关概念

涉及概念：

数据同步和传输：Sqoop、OGG
分布式计算框架：MapReduce、Spark、Spark Streamning、Flink
数据媒介：Hive、HBase、Kafka
核心：Hadoop（HDFS+MapReduce+YARN）

Sqoop

Hadoop和RDB传送数据的工具，其实是一个命令行工具（命令->MR程序），完成MySQL、Oracle和HDFS、Hive、HBase之间的导入和导出。

OGG

Oracle GoldenGate（OGG）是一种基于日志的结构化数据复制软件，利用抽取进程 (Extract Process)在源端数据库中读取Online Redo Log或者Archive Log，然后进行解析，只提取其中数据的变化信息，比如DML操作——增、删、改操作，将抽取的信息转换为GoldenGate自定义的中间格式存放在队列文件(trail file)中。再利用传输进程将队列文件 (trail file) 通过 TCP/IP传送到目标系统。

Hadoop

Hadoop是一个分布式系统基础架构，充分利用集群的威力进行高速运算和存储，它解決了两大问题：大数据存储、大数据分析。也就是 Hadoop 的两大核心：HDFS 和 MapReduce。

HDFS(Hadoop Distributed File System)是可扩展、容错、高性能的分布式文件系统，异步复制，一次写入多次读取，主要负责存储。
MapReduce 为分布式计算框架，包含map(映射)和 reduce(归约)过程，负责在 HDFS 上进行计算。
YARN 资源管理架构（Yet Another Resource Manager）包括 ResourceManager（资源管理器）、Applica-tionMaster、NodeManager（节点管理器）。

Hive

Hive是一个构建在Hadoop之上的数据仓库软件,它可以使已经存储的数据结构化，它提供类似sql的查询语句HiveQL对数据进行分析处理。 Hive将HiveQL语句转换成一系列成MapReduce作业并执行。

Spark

Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，比MR更快。Spark 本身使用 Scala 语言编写，提供了 Java、Scala、Python、R 四种语言的 API。
基于Spark，可以用java等做算子开发，包含transformation（中间过程处理）和action（触发SparkContext提交Job作业，并输出）。
也可以使用Spark SQL，其也是一种SQL-on-Hadoop工具，Spark SQL 就是这样一个基于 SQL 的声明式编程接口。你可以将它看作在 Spark 之上的一层封装，在 RDD 计算模型的基础上，提供了 DataFrame API 以及一个内置的 SQL 执行计划优化器 Catalyst。

Spark Streaming

Spark Streaming 是个批处理的流式（实时）计算框架。其基本原理是把输入数据以某一时间间隔批量的处理，当批处理间隔缩短到秒级时，便可以用于处理实时数据流。
支持从多种数据源获取数据，包括Kafk、Flume、Twitter、ZeroMQ、Kinesis以及TCP sockets，从数据源获取数据之后，可以使用诸如map、reduce、join等高级函数进行复杂算法的处理。最后还可以将处理结果存储到文件系统，数据库（HDFS、HBase）等。

Flink

分布式流处理计算框架，其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序，Flink的流水线运行时系统可以执行批处理和流处理程序。

HBase

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase利用Hadoop HDFS作为其文件存储系统。