java实现spark常用算子之Repartitions - 代码天地

java实现spark常用算子之Repartitions

其他 2019-10-08 14:47:08 阅读次数: 0

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.VoidFunction;

import java.util.ArrayList;
import java.util.Arrays;
import java.util.Iterator;
import java.util.List;

/**
 * repartitions 算子:
 * 增加分区，使用shuffle操作
 */
public class RepartitionsOperator {

 public static void main(String[] args){
 SparkConf conf = new SparkConf().setMaster("local").setAppName("repartitions");
 JavaSparkContext sc = new JavaSparkContext(conf);
 List<String> names = Arrays.asList("w1","w2","w3","w4","w5","w6");

 JavaRDD<String> nameRdd = sc.parallelize(names,2);

 JavaRDD<String> namefristRdd = nameRdd.mapPartitionsWithIndex(new Function2<Integer, Iterator<String>, Iterator<String>>() {
 @Override
 public Iterator<String> call(Integer index, Iterator<String> iterator) throws Exception {

 List<String> list = new ArrayList<>();
 while (iterator.hasNext()){
 list.add("1["+index+"]"+iterator.next());
 }
 return list.iterator();
 }
 },true);

 //增加分区
 JavaRDD<String> temp = namefristRdd.repartition(5);

 JavaRDD<String> nameseconedRdd = temp.mapPartitionsWithIndex(new Function2<Integer, Iterator<String>, Iterator<String>>() {
 @Override
 public Iterator<String> call(Integer index, Iterator<String> iterator) throws Exception {
 List<String> list = new ArrayList<>();
 while (iterator.hasNext()){
 list.add("2["+index+"]:"+iterator.next());
 }
 return list.iterator();
 }
 },false);


 nameseconedRdd.foreach(new VoidFunction<String>() {
 @Override
 public void call(String s) throws Exception {
 System.err.println(s);
 }
 });

 }
}

微信扫描下图二维码加入博主知识星球,获取更多大数据、人工智能、算法等免费学习资料哦！

猜你喜欢

转载自www.cnblogs.com/guokai870510826/p/11635197.html

java实现spark常用算子之Repartitions

java实现spark常用算子之join

java实现spark常用算子之intersection

java实现spark常用算子之groupbykey

java实现spark常用算子之distinct

java实现spark常用算子之TakeSample

java实现spark常用算子之frist

java实现spark常用算子之Take

java实现spark常用算子之SortByKey

java实现spark常用算子之Sample

java实现spark常用算子之SaveAsTextFile

java实现spark常用算子之Union

Spark之常用Action算子

java实现spark算子combineByKey

spark笔记之RDD常用的算子操作

Spark学习之常用算子介绍

spark技术之常用必备算子

spark笔记（二）之RDD常用算子

基于java api的spark常用算子

java-spark的各种常用算子的写法

Spark常用action算子操作 —— Java版

Spark常用transformation算子操作 —— Java版

Spark 常用的 Transformation 算子示例 ===> Java 版

SPARK算子实例JAVA实现（reduce）

Spark常用算子详解

Spark常用算子总结

Spark常用算子练习

spark常用算子

Spark RDD 常用算子

Spark常用算子讲解

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)