mapreduce自定义分组、自定义分区、二次排序 - 代码天地

mapreduce自定义分组、自定义分区、二次排序

编程语言 2018-10-23 11:35:09 阅读次数: 0

mapreduce中二次排序的思想中，我们常常需要对数据的分区分组进行自定义，

以下就介绍一下自定义分区分组的简单实现

1、自定义分区：

public class demoPartitioner<K, V> extends Partitioner<K, V>{
 @Override
    //注意有几个分区reduce任务就有几个
    public int getPartition(K key, V value, int numPartitions) {

        String op=key.toString();
        switch(op)
        {
        case "张村":return 0;
        case "李村":return 1;
        case "王村":return 2;
        case "赵村":return 3;
        }
        return 4;
    }
}

要注意的是：设置了分区之后，reduce任务的个数就只能设置和分区数量一样的个数了！！

2、自定义分组：

class demoGroup implements RawComparator<CombineKey> {
 
	public int compare(Object o1, Object o2) {

		return 0;
	}
	/**
	 * b1 第一个参与比较的字节数组
	 * s1 第一个字节数组中开始比较的位置 
	 * l1 第一个字节数组参与比较的长度 
	 * b2 第二个参与比较的字节数组 
	 * s2 第二个字节数组中开始比较的位置 
	 * l2 第二个字节数组参与比较的长度
	 */
	public int compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2) {
		return WritableComparator.compareBytes(b1, s1, 1, b2, s2, 1);
	}
}

3、场景模拟：对于二次排序的思想

当出现以下需求

A 1 1 A 1 1

B 2 3 》》 A 2 0

A 2 0 B 2 3

这个时候可以让A1、A2、B2这三个当做key来排序，

实现排序功能，但这个时候A1，A2不应该在不同的分区或者组内

显然A、B应为分区，分组的条件，这时候就需要自定义分区和分组了

猜你喜欢

转载自blog.csdn.net/qq_40757296/article/details/83187821

mapreduce二次排序（自定义分区、分组）

mapreduce自定义分组、自定义分区、二次排序

十一、理解MapReduce的二次排序功能，包括自定义数据类型、分区、分组、排序

MapReduce二次排序及自定义Writable

MapReduce实现自定义二次排序

MapReduce自定义排序、分区、分组案例

MapReduce的自定义排序、分区和分组

mapreduce的自定义分组

hadoop之MapReduce自定义二次排序流程实例详解

MapReduce 自定义分区

spark自定义二次排序

mapreduce的自定义排序

MapReduce自定义分区、分组、排序-movie数据案例（案例四）

Hadoop完全分布式用MapReduce实现自定义排序、分区和分组

「 Hadoop」mapreduce对温度数据进行自定义排序、分组、分区等

「 Hadoop」mapreduce对温度数据进行自定义排序、分组、分区等【转载】

MapReduce2中自定义排序分组

MapReduce自定义分组比较器

MapReduce中自定义分区

MapReduce自定义分区器partitioner

MapReduce【自定义分区Partitioner】

自定义MapReduce

结合案例讲解MapReduce重要知识点 ------- 使用自定义MapReduce数据类型实现二次排序

mapreduce排序（自定义Partition）

MapReduce自定义排序编程

自定义分区实现全排序

Spark自定义排序与分区

Spark 二次排序自定义key 实现(Java)

MapReduce的自定义数据类型、top-N、二次排序、多表连接案例——千峰视频

自定义排序

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)