mapreduce运行平台YARN

mapreduce运行平台YARN

mapreduce程序应该是在很多机器上并行启动,而且先执行map task,当众多的maptask都处理完自己的数据后,还需要启动众多的reduce task,这个过程如果用用户自己手动调度不太现实,需要一个自动化的调度平台——hadoop中就为运行mapreduce之类的分布式运算程序开发了一个自动化调度平台——YARN

安装yarn集群

yarn集群中有两个角色
主节点:Resource Manager
从节点:Node Manager
Resource Manager一般安装在一台专门的机器上
Node Manager 应该与HDFS中的datanode安装在一起(便于数据交互)
配置文件:

<property>
<name>yarn.resourcemanager.hostname</name>
<value>hdp-04</value>
</property>

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>2048</value>
</property>

<property>
<name>yarn.nodemanager.resource.cpu-vcores</name>
<value>2</value>
</property>

这里写图片描述
**然后复制到每一台机器上
然后在hdp-04上,修改hadoop的slaves文件,列入要启动nodemanager的机器
然后将hdp-04到所有机器的免密登陆配置好
然后,就可以用脚本启动yarn集群:
sbin/start-yarn.sh
停止:
sbin/stop-yarn.sh
启动完成后,可以在windows上用浏览器访问resourcemanager的web端口:
http://hdp-04:8088**
看resource mananger是否认出了所有的node manager节点

猜你喜欢

转载自blog.csdn.net/liulidoing/article/details/82494056
今日推荐