1.初始Hadoop

1.1大数据
大数据胜于好算法

1.2数据的存储与分析
如果我们有100个数据集,每个硬盘存储1%的数据,并行读取,那么不到2分钟就可以读完所有数据。
存在的问题:

  1. 硬件故障问题:通过复制来解决
  2. 大多数分析任务需要以某种方式结合大部分数据来共同完成分析:MapReduce提出一种编程模型,转化为键值对来完成。

1.3Hadoop
Hadoop是一个开源框架,可编写和运行分布式应用处理大规模数据。Hadoop框架的核心:HDFS,MapRedue和YARN。

1.4MapReduce
1)为只需要短短几分钟或几个小时就可以完成的作业提供服务
2)运行于同一个内部有高速网络连接的数据中心内,
3)数据中心内的计算机都是可靠的,专门的硬件

1.5一些概念
1)HBase:分布式的面向列的数据库,不仅提供对单行的在线读写访问,还提供对数据块读写的批操作。
2)YARN:是一个集群资源管理系统,运行任何一个分布式程序基于Hadoop集群的数据而运行。
3)高性能计算:讲作业分散到集群的各台机器上,这些机器访问区域网络所组成的共享文件系统。
4)志愿计算:将问题分成很多块,每一块称一个工作单元,发到世界各地的计算机上进行分析。不可信的计算机上长时间运行,网络带宽不同,对数据本地化也没有要求。
5)Avro:Hadoop的一种跨语言数据序列化库。(数据格式)
6)Parquet:一种有效的用于嵌套式数据的列式存储格式。(数据格式)
7)Flume:可以支持流数据的大批量摄入。(数据摄入)
8)Sqoop:支持在结构化数据存储和HDFS之间高效批量传输数据。(数据摄入)
9)Pig:是一种用于开发大数据集的数据流语言。
10)Hive:是一种数据仓库,用于管理HDFS中存储的数据并提供基于SQL的查询语言。
11)Crunch:是一套高层次的JavaAPI,用于写可以运行在MapReduce或Spark上的数据处理管线程序。
12)Spark:是一个面向大规模数据处理的集群计算框架,它提供一个有向无环图引擎,以及支持Scala,Java,Python语言的API。
13)ZooKeeper:是一种分布式高可用性的协调服务,提供用于构建分布式应用的原语集。

猜你喜欢

转载自blog.csdn.net/yuejing987/article/details/81589161
1.