MapReduce全局排序细节 - 代码天地

MapReduce全局排序细节

其他 2018-06-23 14:31:10 阅读次数: 2

一、概念

全局排序是通过将进入map端之前的数据进行随机采样，在采取的样本中设置分割点，通过分割点将数据进行分区

二、原理

将设置的分割点保存在二叉树中，Map Task 每输出一个数据就会去查找其对应的区间，以此来达到分区效果

三、易忘点

（1）全局排序处理的文件内容key----value按照TAB键分割的（例如k v）;

（2）Mapper函数的输入数据类型为Text,Text类型（输出数据类型随意，但需要保证reduce端的输入数据类型与其一致）

（3）主函数中

1，定义分割点的存储路径（例如 String partitionPath="file:/E:/partition" 注意本地路径前要加file:/）;

2, 设置InputFormat阶段的格式化类型（job.setInputFormatClass(KeyValueTextInputFormat.class)）;

3, 设置分区类为全局排序（job.setPartitionerClass(TotalOrderPartitioner.class)）;

4, 设置分区的分区数，需要与创建随机样本对象传入的分区数相同

job.setNumReduceTasks(3); (3---------为我设置的分区数)

5，获取随机样本对象

RadomSample <Text,Text> sampler =new RandomSample<>(0.1,10,3);

0.1-----------------每个样本被抽到的概率

10------------------样本数

3--------------------分区数

6，设置分割点存储路径

TotalOrderPartitioner.setPartitionFile(job.getConfiguration(),new Path(partitionPath));

7, 添加分割点

InputSampler.writePartitionFile(job,sampler);

猜你喜欢

转载自blog.csdn.net/qq_42444621/article/details/80701062

MapReduce全局排序细节

MapReduce全局排序实践（利用Hadoop Streaming配置项）

Java通过Hadoop平台使用 MapReduce 实现数据全局排序

MapReduce排序

三种方法实现Hadoop(MapReduce)全局排序(1)

利用MapReduce进行排序

Hadoop基础-MapReduce的排序

mapreduce实现对key的排序

Mapreduce的排序初步

MapReduce Key排序原理

MapReduce-排序

MapReduce分区和排序

MapReduce辅助排序

Mapreduce实例——排序

Mapreduce分区加排序

MapReduce排序案例

四、MapReduce中的排序

MapReduce排序总结

MapReduce排序-概述

MapReduce - A - 排序 - TreeSet

排序 - 快速排序细节分析

MapReduce（4）--MapReduce 统计求和，排序

MapReduce job 如何实现全局共享数据

MapReduce全局变量之捉虫记

MapReduce全局程序计数器Counters

hadoop mr 全局排序

MR全局排序

MapReduce案例之数据排序

MapReduce二次排序

MapReduce 二次排序

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)