Hdoop相关知识

引用

一：涉及到的东西
HDFS：file system用于管理文件，相当于资源管理系统
Map reduce ：Engine+Logic 实现大量的计算
Nuts:框架
非结构化数据：如日志数据（flume，scribe）
结构化数据：有表结构等，如oracle和mysql。数据可以从HDFS中互相转换到关系型数据库中，采用的软件有Sqoop
OLTP：在线事务处理应用（HBASE），要求延时比较少。1024G=1p
Eclipse:管理。Ganglia监控集群，带宽等
JAQL高层次接口，采用sql语言
Hive：hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。
Oozie：workflow
Mahout：more high interfaces,它封装了算法

二：Hadoop：适合大数据的分布式的存储和计算平台
1.HDFS：
主从结构：主节点：只有一个：namenode
从节点：有很多个：datanodes
namenode负责：
接收用户操作请求
维护文件系统的目录结构
管理文件与block之间的关系，block与datanode之间的关系

datanode负责：
存储文件
文件被分成block（默认大小为64M）存储在磁盘上
为保证数据安全，文件会有多个副本

2.MapReduce:
主从结构：
主节点：只有一个，JobTracker
从节点：有很多个：TaskTrackers
JobTracker负责：
接受客户提交的计算任务
把计算任务分给TaskTrackers执行
监控TaskTrackers的执行情况
TaskTrackers负责：
执行JobTracker分配的计算任务
3.Hadoop的特点：
扩容能力：能可靠的存储和处理千兆字节（PB）数据
成本低：可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达到千个节点。
高效率：通过分发数据，hadoop可以在数据所在的节点上并行的处理它们，这使得处理非常的快速。
可靠性：hadoop能自动的维护数据的多份副本，并且在任务失败后能自动的重新部署（redeploy）计算任务。

猜你喜欢