Hadoop day03

数据存储方案

数据仓库解决方案（DWH）:DB2，Oracle，SQL Server SSRS
NoSQL: MongoDB，Redis，Cassandra
内存数据库：SAP HANA，Exasol EXASolution
Hadoop生态：Hive，Hbase，Impala

hadoop常见版本分为开源版，发行版：
开源版：适合公司团队使用，可以修改代码成自己适合的版本
发行版：Cloudera CDH 比较适合使用
Hortonworks HDP 步骤比较繁琐，坑较多不推荐使用
MapR （我没有使用过建议使用第一个）

Elaticsearch Solr 索引服务器
按及时性来说ES比较好，按内存数据库来讲推荐使用Solr

是一个面向大数据处理，擅长离线数据分析，分布式的文件系统和计算框架

架构
Hadoop架构图
在这里插入图片描述

Namenode
1.HDFS的守护进程
2.记录文件时如何分割成数据块以及这些数据块被存放到哪些节点上对内存和I/O进行集中管理
3.0前的版本是单点

Secondary Namenode
1.监控HDFS状态的辅助后台程序
2.每个集群都有一个
3.与NameNode进行通讯，定期保存HDFS元数据的快照
4.当NameNode故障的时候可以作为备用NameNode节点人工替换（3.0版本实现自动替换）

DataNode
1.每台从服务器都运行一个
2.负责把HDFS数据块读写到本地文件系统

JobTracker
1.用于处理作业的后台程序
2.决定有哪些文件参与处理，然后切割task并分配节点
3.监控task，重启失败的task
4.每个集群只有一个JobTracker，位于Master节点

TaskTracker
1.位于slave节点上，与datanode结合
2.管理个节点上的task
3.每个节点只有一个tasktracker，但一个tasktracker可以启动多个JVM，用于并行执行map或者reduce任务
4.与jobtracker交互