Hadoop-基本模块,运行模式,配置文件,namenode,datanode,secondarynamenode作用

hadoop模块:
    Hadoop Common:支持其他Hadoop模块的常用实用程序。
    Hadoop分布式文件系统(HDFS™):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。
    Hadoop YARN:作业调度和集群资源管理的框架。
    Hadoop MapReduce:基于YARN的系统,用于并行处理大型数据集。(一种计算框架)
    Hadoop Ozone: Hadoop的对象存储。(后来新增)
三种运行模式:
    本地(独立)模式:
        Hadoop配置为以非分布式模式运行,作为单个Java进程。这对调试很有用
    伪分布式模式:
        Hadoop还可以在伪分布式模式下在单节点上运行,其中每个Hadoop守护程序在单独的Java进程中运行
        在一台机器上运行hdfs文件系统,运行mr程序,从hdfs上获取数据,结果存放到hdfs上
    完全分布式模式
        运行在多台机器上,同时只有一个hdfs系统
简述从伪分到完全分布式的步骤
    克隆两个节点,修改主机名,修改ip与主机映射,配置ssh无密登录,安装jdk,安装Hadoop,
    配置环境变量,修改hadoop配置文件,格式化。

core-site.xml里面有fs.defaultFS,hadoop.tmp.dir。hdfs-site.xml里有dfs.replication(副本数)
mapred-site.xml里有mapreduce.framework.name<!--指定mr任务在哪个上面运行(本地、经典和yarn)-->

namenode:维护命名空间、保存元数据和用户对hdfs的操作、副本数等等
                管理文件系统命名空间的主服务器和管理客户端对文件的访问组成
                块(block)到DataNode的映射
datanode:存放实际数据(块)
                管理连接到它们运行的​​节点的存储
                提供来自文件系统客户端的读写请求
                执行块创建,删除
secondarynamenode:辅助namenode进行工作(检查点保存)

猜你喜欢

转载自blog.csdn.net/qq_42397691/article/details/84719295