Hadoop具体能做什么?
Hadoop主要是做离线日志海量数据分析.
Hadoop架构总览:
狭义上的Hadoop的三大核心:
HDFS:分布式文件系统
主节点.namenode
namenode作用:接收用户操作请求,维护文件系统之间的目录结构,管理文件与block之间的关系
从节点,有很多个;datanode
datanode的作用:存储文件,文件被分为block存储在磁盘上,为保证数据安全,文件会有多个副本
YARN:资源管理调度系统
Mapreduce:分布式运算框架
Hadoop的特点:扩容能力,成本低,高效率,可靠性(就不一一细讲)
Hadoop的部署方式:本地模式(无需任何守护进程),伪分布式模式(所有的java程序都运行在一个物理机上),集群模式(Java进程运行在多个物理机上)