1.初始Hadoop

1.1大数据
大数据胜于好算法

1.2数据的存储与分析
如果我们有100个数据集，每个硬盘存储1%的数据，并行读取，那么不到2分钟就可以读完所有数据。
存在的问题：

硬件故障问题：通过复制来解决
大多数分析任务需要以某种方式结合大部分数据来共同完成分析：MapReduce提出一种编程模型，转化为键值对来完成。

1.3Hadoop
Hadoop是一个开源框架，可编写和运行分布式应用处理大规模数据。Hadoop框架的核心：HDFS，MapRedue和YARN。

1.4MapReduce
1）为只需要短短几分钟或几个小时就可以完成的作业提供服务
2）运行于同一个内部有高速网络连接的数据中心内，
3）数据中心内的计算机都是可靠的，专门的硬件

1.5一些概念
1）HBase：分布式的面向列的数据库，不仅提供对单行的在线读写访问，还提供对数据块读写的批操作。
2）YARN：是一个集群资源管理系统，运行任何一个分布式程序基于Hadoop集群的数据而运行。
3）高性能计算：讲作业分散到集群的各台机器上，这些机器访问区域网络所组成的共享文件系统。
4）志愿计算：将问题分成很多块，每一块称一个工作单元，发到世界各地的计算机上进行分析。不可信的计算机上长时间运行，网络带宽不同，对数据本地化也没有要求。
5）Avro：Hadoop的一种跨语言数据序列化库。（数据格式）
6）Parquet：一种有效的用于嵌套式数据的列式存储格式。（数据格式）
7）Flume：可以支持流数据的大批量摄入。（数据摄入）
8）Sqoop：支持在结构化数据存储和HDFS之间高效批量传输数据。（数据摄入）
9）Pig：是一种用于开发大数据集的数据流语言。
10）Hive：是一种数据仓库，用于管理HDFS中存储的数据并提供基于SQL的查询语言。
11）Crunch：是一套高层次的JavaAPI，用于写可以运行在MapReduce或Spark上的数据处理管线程序。
12）Spark：是一个面向大规模数据处理的集群计算框架，它提供一个有向无环图引擎，以及支持Scala，Java,Python语言的API。
13）ZooKeeper：是一种分布式高可用性的协调服务，提供用于构建分布式应用的原语集。

猜你喜欢