Hadoop集群基础知识

Hadoop分布式系统基础架构

Hdfs: 分布式文件系统

Yarn: Hadoop 资源调度管理器

Mapreduce大数据并行处理的计算模型、框架和平台

Hive:看成mapreduce客户端,能代替一些不会使用java的工作者,通过脚本实现数据的调用MapReduce的计算,内置了一个数据库,但不稳定,hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

Hbase:半结构或者非结构化数据存储,HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。Client通过zookeeper,调用hmaster现将数据存放在Hregionserver 里的memstore 若有溢出则存放在store.hfile(hdfs上的位置)

Flume:处理网络日志,行为日志的一个,提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。

Scala:是一门多范式的编程语言,一种类似java的编程语言,设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。

GangliaUC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。Ganglia的核心包含gmondgmetad以及一个Web前端。主要是用来监控系统性能,如:cpu mem、硬盘利用率, I/O负载、网络流量情况等,通过曲线很容易见到每个节点的工作状态,对合理调整、分配系统资源,提高系统整体性能起到重要作用。

猜你喜欢

转载自www.cnblogs.com/lgx-fighting/p/9398675.html
今日推荐