读书笔记-Hadoop大数据shuffle - 代码天地

读书笔记-Hadoop大数据shuffle

其他 2019-10-22 11:34:11 阅读次数: 0

想要说起shuffle，先从整体的流程说起，shuffle包括也就是对map端的数据处理，依次进行分区，排序，切割，然后在reduance端进行merger在排序向reduce发送数据，这就是shuffle的一个整体流程。

那么在细致一点根据源码说的的话，map端输出数据会由collector端进行处理，也就是调用collect函数，首先呢map端会将输出数据写出到内存环里，等到内存环达到了一定的阈值，那么就会触发将数据写入磁盘，由于内存环写入磁盘的过程中，map端还是会向环写入数据的，所以呢如果写出速度小于写入速度的话，map端就会等待。在collect函数将数据写出后会调用sortandsplit函数，每被调用一次就会生成一个spill文件，然后按照key值对需要写出的数据进行排序，最后根据partition顺序将所有的数据写入到spill文件里，如果要是设置了combine类的话，就会先调用combiner类中的combineandsort方法，对结果进行进一步的合并，在排序，在分发到reduce端。这样map端会生成很多的spill文件，这个时候会先merger这些文件后在交给reduce处理，这也就是map端的shuffle。

下面进行reduce端的shuffle，reduce端整体流程为复制map端输出，排序合并，reduce处理。

reduce端会定时向jobtracker获取map端的输出位置，一旦获取到位置就会复制tobtracker的数据到本地，如果数据小就到内存中，如果数据大就到磁盘，与此同时的进行meger操作并维持原来的顺序，最后交给reduce处理到hdfs上。

猜你喜欢

转载自www.cnblogs.com/chunqiu0123/p/11718697.html

读书笔记-Hadoop大数据shuffle

读书笔记-Hadoop大数据小结

读书笔记-Hadoop大数据任务优化

大数据读书笔记（1）

【读书笔记】大数据时代

Hadoop实战读书笔记

《数据算法Hadoop/Spark》读书笔记4--topN

Hadoop构建数据仓库实践读书笔记【1】

大数据时代【Big Data】读书笔记

《删除：大数据取舍之道》读书笔记

阿里巴巴大数据实践-读书笔记

《大数据时代的算法》读书笔记（一）

《人力资源管理大数据》读书笔记

【读书笔记】大数据平台基础架构指南

离线大数据开发实战（读书笔记）

读书笔记2区块链与大数据

《MongoDB大数据处理权威指南》读书笔记

《大数据数学基础Python版》读书笔记一

《大数据之路-阿里巴巴大数据实践》读书笔记

【读书笔记】大数据之路：阿里巴巴大数据实践

大数据之路、阿里巴巴大数据实践读书笔记目录

《Hadoop权威指南》读书笔记

《Hadoop权威指南》读书笔记一

Hadoop权威指南-读书笔记

读书笔记：Hadoop权威指南简介

CoreJava读书笔记--大数值

Hadoop构建数据仓库实践读书笔记【3】__数据仓库设计基础

hadoop 大数据笔记

大数据开发：剖析Hadoop和Spark的Shuffle过程差异

大数据技术之Hadoop之MapReduce（3）——Shuffle机制

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)