1.map-reduce
map将输入数据打散,并对其做简单处理,输出。
在hadoop中先进行一个叫做shuffle的过程对中间数据排序,然后由reduce把中间数据合并起来,然后将结果输出。
map任务读入切分后的大规模数据、处理->shuffle对数据排序->reduce进行最后的数据处理。
mapReduce适用于超大规模数据(100TB数量级)且各数据之间相关性较低情况。
2.HDFS(hadoop file system)
hadoop是使用网络松散(单一机器故障不会对集群有影响)组合起来的,多个计算机需要一个统一的文件访问方式,因此hdfs应运而生,提供了较好的容错和扩展性。
3.节点和槽位
节点:hadoop集群由很多low cose的计算机组成,则这些计算机被称为节点。
hadopp的计算节点和存储节点是统一的,这样在计算中中产生的文件,可以直接放在本机的存储节点上,减少网络带宽占用和延迟。
槽位:指集群内每个计算的cpu并发数,CPU数*核心数*超线程数的总和。任务需要安排在一个槽位执行,安排不到的会等待。