Hadoop知识点总结！！！ - 代码天地

Hadoop知识点总结！！！

其他 2018-11-10 08:40:59 阅读次数: 0

没什么好解释的，纯粹的干货分享。。。

Hadoop：
   1.Hadoop的四大模块:
       1.common:基础模块，用于支撑其他模块
       2.mapruedce：分布式计算框架
       3.YARN：分布式资源调度框架
       4.HDFS：分布式文件系统

   2.端口：
       1.HDFS：8082 webUI端口：8088
       2.YARN：8032 webUI端口：50070
       3.zookeeper：2181
       4.JobHistoryServer:19888

   3.Hadoop2.x分布式搭建的详细过程：
       一：linux相关：
           1.ip，网关，DNS
           2.hostname，本地域名解析映射（hosts）
           3.关闭防火墙，selinux
           4.ssh免密钥登陆
           5.ntp时间同步
           6.jdk配置
       二：Hadoop相关:
           1.上传，解压
           2.修改配置
               -》修改-evn.sh
                   hadoop、yarn、mapred
               -》core-site.xml
                   hdfs入口，临时文件目录
               -》hdfs-site.xml
                   副本数、访问权限、secondary节点
               -》mapred-site.xml
                   运行的框架、JobHistoryServer节点
               -》yarn-site.xml
                   resourceManager的地址、mapreduce运行方式、日志聚集
               -》slaves
                   所有从节点地址
       三：分发文件
       四：格式化文件系统
       五：启动：
               先启动hdfs后启动yarn

   4.Hadoop2.x中HDFS与YARN的四个进程的功能及启动方式
       4个进程的功能：
           NameNode的功能：
               -》处理客户端发过来的请求
               -》管理从节点
               -》管理元数据
           DataNode的功能：
               负责数据运输、负责读写数据的功能
           ResourceManager的功能：
               负责集群资源的管理和任务调度、处理用户的请求、管理从节点
           NodeManager的功能：
               负责处理所有任务
       4个进程的启动：
           sbin/hadoop-daemon.sh start namenode
           sbin/hadoop-daemon.sh start datenode
           sbin/yarn-daemon.sh start resourcemanager
           sbin/yarn-daemon.sh start nodemanager

   5.jar包提交运行在yarn上的执行流程
       1.用户提交jar包，向resourcemanager请求提交任务
       2.resourcemanager接受任务，并随机选择一台nodemanager启动appmaster
       3.appmaster向resourcemanager请求资源
       4.resourcemanager分配资源，并将资源分配信息返回给appmaster
       5.appmaster联系nodemanager启动相关Task
           ps：Task：maptask的个数由数据块的个数决定；
ruducetask的个数可以自己设置
每个task都会调用各自的方法：map方法的调用次数由数据的行数决定；
reduce方法的调用次数由key的类型个数决定。
       6.运行的task时刻向appmaster汇报进度
       7.reduce task将执行结果返回给appmaster
       8.appmaster将结果返回给resourcemanager，并注销自己

   6.请描述MapReduce运行的五大过程，包含详细的shuffle过程
       input
           1.读取HDFS上文件数据
           2.将数据转成keyvalue形式，key是行偏移量，value是行内容
       map
           接收input的输出
           根据分片的个数，启动相应task
           每个map task对每条keyvalue调用map方法进行处理
       shuffle
           ->Map shuffle
               将map输出的数据输入环形缓冲区内
               在缓冲区进行分区，对每个分区进行排序
               达到阈值80%开始溢写到磁盘，变成小文件
               溢写结束，将所有小文件进行合并，并且对每个分区进行排序
               map task结束，通知appMaster
           ->reduce shuffle
               app master通知reduce，reduce去每个map task拉取属于自己分区的数据。
               对属于自己分区的数据进行合并，并排序
               对相同key进行分组
       reduce
           读取shuffle的输出，对每一种key,调用reduce方法进行处理
       output
           将reduce的输出写入到hdfs中
   7.请写出自定义数据类型时，需要继承哪些类，以及实现的方法及其功能
                   ps：编写MapReduce模板
                       Driver：
                           -》不继承也不实现
                           -》继承和实现 -官方推荐
                               extends Configured implements Tool
                           -》不继承只实现 - 企业用的最多
                           implements Tool
      实现Writable/WritableComparable接口
       定义属性，并生产对应get、set方法。获取值和赋值
       write：序列化
       readFiled：反序列化
       compareTo:比较
       toString：转换为String类型对象
       无参和有参构造方法：初始化构建
       hashCode和equals：比较验证

   8.元数据：（描述数据的数据）
       元数据在哪里？？？？？：
           存储在内存中，也存储在磁盘(存放的文件：fsimage)
       由谁来同步元数据：
           secondaryNameNode功能：
           辅助Namnode同步本地元数据
           fsimage(old) + edits = fsimage(new)

猜你喜欢

转载自blog.csdn.net/superme_yong/article/details/83004140

hadoop知识点总结

Hadoop知识点总结！！！

Hadoop小知识点总结1

Hadoop知识点总结（一）

Hadoop常见知识点总结

Hadoop(MapReduce)知识点总结

Hadoop(HDFS)知识点总结

Hadoop(入门)知识点总结

Hadoop实战小知识点总结

Hadoop知识点问题总结

Hadoop知识点总结——MapReduce的Shuffle

hadoop知识点

Hadoop构造模块以及Hdfs知识点总结

Java Hadoop基础知识点总结

Hadoop生态之hdfs知识点总结

Hadoop生态之Hive知识点总结

Hadoop生态之HBase知识点总结

Hadoop生态之Yarn知识点总结

hadoop系列十九——sqoop知识点总结

知识点总结

总结：知识点

知识点的总结

总结知识点

hadoop知识点记录

Hadoop_知识点

Hadoop知识点1

hadoop面试知识点

Hadoop知识点（一）

Redis知识点总结

HTML知识点总结

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)