每天10分钟——10.18

1.hdfs 伪分布式哪三个进程,简写

NN	DN	SNN	

2.yarn伪分布式哪两个进程,简写

RM		NM

3.简述 nn做什么的?

管理文件名称,维护目录树,定期接受DN的心跳信息

4.简述 snn是做什么的那幅图,是否能够描述清楚?

定期去NN上的fsimage和editlog合并成新的fsimage并且返回给NN

5.一个文件130M,block设为128M,系统设置3副本,请问多少块,多少存储

6块	256M

6.拓展题: 所以,假如都是5M 10M 20M这些小文件,我们是不是为了避免nn节点内存的压力,要不合并这些小文件,要不就将冷数据迁移到比如oss,s3存储上

是的,大量存储小文件会让NN节点压力过大,所以需要合并

7.假如让你找配置参数,你会在官网找吗

看是配置env.sh还是.xml文件之后再去官网的文档里找

8.简述你们对shuffle的理解

洗牌,将相同key值放在一起

9.简述什么是数据本地化

NN 和 DN同一节点

10.简述mr提交到yarn上

client将作业提交到yarn上,yarn的NM分配contanier和开启ApplicationMaster
ApplicationMaster申请资源并且分配到相应的container,同时监控他们

11.hive数据分为 元数据和数据,那么你们课程中,分别存储在哪里

元数据在关系型数据库中,数据在hdfs上

猜你喜欢

转载自blog.csdn.net/weixin_43267534/article/details/83415999