hadoop原理

1.map-reduce

map将输入数据打散,并对其做简单处理,输出。

在hadoop中先进行一个叫做shuffle的过程对中间数据排序,然后由reduce把中间数据合并起来,然后将结果输出。

map任务读入切分后的大规模数据、处理->shuffle对数据排序->reduce进行最后的数据处理。

mapReduce适用于超大规模数据(100TB数量级)且各数据之间相关性较低情况。

2.HDFS(hadoop file system)

hadoop是使用网络松散(单一机器故障不会对集群有影响)组合起来的,多个计算机需要一个统一的文件访问方式,因此hdfs应运而生,提供了较好的容错和扩展性。

3.节点和槽位

节点:hadoop集群由很多low cose的计算机组成,则这些计算机被称为节点。

hadopp的计算节点和存储节点是统一的,这样在计算中中产生的文件,可以直接放在本机的存储节点上,减少网络带宽占用和延迟。

槽位:指集群内每个计算的cpu并发数,CPU数*核心数*超线程数的总和。任务需要安排在一个槽位执行,安排不到的会等待。

猜你喜欢

转载自y-x.iteye.com/blog/1807122