大数据实时计算Spark学习笔记（7）—— RDD 数据倾斜处理

编程语言 2018-12-28 16:02:48 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/u012292754/article/details/85316579

1 处理数据倾斜

在 reduceByKey 之前先进行随机分区

package com.bigdataSpark.cn
import org.apache.spark.{SparkConf, SparkContext}
import scala.util.Random
object DataLeanDemo {
    def main(args: Array[String]): Unit = {
        val conf = new SparkConf().setMaster("local[4]").setAppName("DataLean")

        val sc = new SparkContext(conf)

        val rdd1 = sc.textFile("d:/words.txt", 4)
        rdd1.flatMap(_.split(" ")).map((_, 1)).map(t => {
            val word = t._1
            val r = Random.nextInt(100)
            (word + "_" + r, 1)
        }).reduceByKey(_ + _).map(t => {
            val word = t._1
            val count = t._2
            val w = word.split("_")(0)
            (w, count)
        }).reduceByKey(_ + _)
                .saveAsTextFile("d:/Scalaout/lean")
    }
}

2 Spark 和 Hadoop HA整合

复制 core-site.xml + hdfs-site.xml 到 spark/conf

猜你喜欢

转载自blog.csdn.net/u012292754/article/details/85316579

大数据实时计算Spark学习笔记（7）—— RDD 数据倾斜处理

大数据实时计算Spark学习笔记（8）—— RDD 持久化

大数据实时计算Spark学习笔记（5）—— RDD的 transformation

大数据实时计算Spark学习笔记（11）—— Spark Streaming

大数据实时计算Spark学习笔记（4）—— Spak核心 API 模块介绍

大数据实时计算Spark学习笔记（3）—— Spak Maven 编译插件

大数据实时计算Spark学习笔记（9）—— Spar SQL(1) 读取 json 文件

大数据实时计算Spark学习笔记（2）—— Spak 集群搭建

大数据实时计算Spark学习笔记（1）—— Spak单词统计

.NET 大数据实时计算--学习笔记

大数据-Spark的RDD

大数据之Spark（二）--- RDD，RDD变换，RDD的Action，解决spark的数据倾斜问题，spark集成hadoop的HA

大数据实时计算Spark学习笔记（10）—— Spar SQL(2) -JDBC方式操作表

大数据实时计算框架

Spark处理数据倾斜

spark数据倾斜处理

Spark RDD数据集

【大数据】RDD编程

Hadoop数据倾斜处理

RDD读取数据

RDD数据源

spark数据倾斜处理方案

Spark任务数据倾斜处理

spark数据倾斜处理实践

大数据计算引擎之Spark(2) SparkCore-RDD

Spark——键值对 RDD 数据分区

大数据实时计算框架：SparkStreaming

Storm 实战：构建大数据实时计算

基于Storm与Cassandra的实时计算与大数据实践

Flink大数据实时计算系统实践

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)