hadoop 札记

其他 2019-01-12 09:10:58 阅读次数: 0

一、一个文件至少有一个split。一个block 对应1个及以上split。一个split不能对应多

个block，会引起网络传输。

二、如果要整个map的结果一次性输出。那么，输出代码写在 cleanup（）函数中。

三、shuffle

排序分组

map输出后需要做排序的目的是为分组作第一次准备

排序要实现comparable<T>

排序由MapReduce框架根据key compareTo 自动排序

map输出后排序

shuffle排序只能按key排序有时候value 可以使 null

汇总多个map之后分组之前的排序，分组之前可以手工干预。

猜你喜欢

转载自blog.csdn.net/u011500419/article/details/84324739

hadoop 札记

Hadoop 单节点 & 伪分布安装札记

Hadoop札记：使用Python编写wordcount程序

札记

札记*****

工作采坑札记：2. Hadoop中MultipleInputs的使用陷阱

工作采坑札记：3. Spark中es-hadoop插件异常解决

工作采坑札记：4. Hadoop获取InputSplit文件信息

yaf札记

docker 札记

异常（札记）

英语札记

HTML札记

python札记

继承札记

雨天札记

5.6札记

札记-20190531

札记-20190604

札记-20190616

写作札记

html 札记

Handler札记

FairyGUI札记

Pytorch札记

生活札记 -得闲

mysql 引擎学习札记

Spring Security学习札记

Mongodb 关心问题札记

札记：Xen是如何工作的？

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)