mapReduce浅析 - 代码天地

mapReduce浅析

其他 2019-01-26 14:18:06 阅读次数: 0

MapReduce分为两个阶段：Mapper和Reducer，用户只需要实现map()和reduce()两个函数，即可实现分布式计算。

两个工作节点为ResourceManager，NodeManager。

ResourceManager工作职能：

1、管理nodeManager

2、检测NodeManager状态变换，通过RPC心跳实现。

3、任务的分配和调度，做到细粒度任务分配，比如某一个任务需要占用多大内存，需要多少计算资源。

NameNode工作职能：

1、收到resouceManager发过来的任务，并进行任务处理（map+reduce）

MapReduce执行步骤

1.map任务处理:

　1.1 读取hdfs文件内容,把内容中的每一行解析成一个键(key)值(value)对.键是字节的偏移量,值是每一行的内容,每一个键值对调用一次map函数.map函数处理输入的每一行.

　1.2 自定义map函数,写自己的逻辑,对输入的key,value(把每一行解析出的key,value)处理,转换成新的key,value输出.（比如，hello 1,hello 1,world 1）

　1.3 此时系统会进行shuffle操作，将key值相同的map进行合并，生成新的map（如 hello [1,1] world[1])

2.reduce任务处理:

    2.1 reduce中实现自己的业务逻辑。每一个map会调用一个reduce，如hello会调用一次reduce，此时   可用iterator对map进行遍历，输出hello 2。world会调用一次reduce，输出world 1.

    2.2 把reduce的输出保存到新的文件中.
   将ruduce内容写到hdfs中，可得到
   hello 2
   world 1 
   这样处理完毕的数据

在hadoop全局中不会有线程问题,因为hadoop起的是进程,不会有并发问题存在.

猜你喜欢

转载自blog.csdn.net/starkpan/article/details/86624887

mapReduce浅析

MapReduce原理浅析（转）

Hadoop Mapreduce 浅析

浅析MapReduce(二）

浅析MapReduce之PriorityQueue

大数据学习对MapReduce的理解浅析

Hadoop应用系列2--MapReduce原理浅析(上)

Hadoop应用系列2--MapReduce原理浅析(下)

大数据处理 — 浅析MapReduce之shuffle

浅析hadoop之MapReduce架构及相关特点、优势

从零开始学Hadoop——浅析MapReduce（二）

从零开始学Hadoop——浅析MapReduce（一）

三-下-0, MapReduce Join 浅析及案例实操

MapReduce

网络程序论文：Hadoop HDFS和MapReduce架构浅析（被引和下载最多）

MapReduce 特性（ MapReduce Features ）

【Mapreduce】Mapreduce实例——WordCount

MapReduce的思想

MapReduce的原理

MapReduce 原理

MapReduce作业

MapReduce详解

mongodb的mapreduce

理解MapReduce

MongoDB与mapreduce

MapReduce（3）

MapReduce（4）

java (mapreduce)

MapReduce优化

MapReduce介绍

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)