【Spark-core学习之七】 Spark广播变量、累加器 - 代码天地

【Spark-core学习之七】 Spark广播变量、累加器

其他 2019-04-09 15:48:05 阅读次数: 0

环境
　　虚拟机：VMware 10
　　Linux版本：CentOS-6.5-x86_64
　　客户端：Xshell4
　　FTP：Xftp4
　　jdk1.8
　　scala-2.10.4(依赖jdk1.8)
　　spark-1.6

一、广播变量

package com.wjy

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext

object GuboVal {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf();
    conf.setMaster("local").setAppName("broadcast");
    val sc= new SparkContext(conf);
    
    val list = List("hello wjy");
    val broadcast = sc.broadcast(list);//定义一个广播变量
    
    val linesRDD = sc.textFile("./data/words.txt");
    //广播变量可以在excutor使用
    linesRDD.filter{x=>broadcast.value.contains(x)}.foreach(println);
    
    sc.stop();
  }
}

注意：

(1) 能不能将一个RDD使用广播变量广播出去？

不能，因为RDD是不存储数据的。可以将RDD的结果广播出去。

(2)广播变量只能在Driver端定义，不能在Executor端定义。

(3) 在Driver端可以修改广播变量的值，在Executor端无法修改广播变量的值。

二、累加器

package com.wjy

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext

object accumulator {
  def main(args: Array[String]): Unit = {
    val conf =new SparkConf();
    conf.setMaster("local").setAppName("accumulator");
    val sc = new SparkContext(conf);
    //创建累加器  累加器可以是整形 也可以是其他自定义对象
    val accumulator = sc.accumulator(0);
    //累加器在excutor里累加
    sc.textFile("./data/words.txt").foreach(x=>{accumulator.add(1)});
    println(accumulator.value);
    
    sc.stop();
  }
}

注意：

累加器在Driver端定义赋初始值，累加器只能在Driver端读取，在Excutor端更新。

参考：
Spark

猜你喜欢

转载自www.cnblogs.com/cac2020/p/10677263.html

【Spark-core学习之七】 Spark广播变量、累加器

Spark十累加器与广播变量

Spark:广播变量和累加器

Spark中的广播变量与累加器

Spark - 广播变量 & 累加器

Spark广播变量和累加器

Spark的累加器和广播变量

(五)Spark广播变量，累加器

【Spark】广播变量和累加器

spark记录（2）spark广播变量与累加器

Spark：共享变量(广播变量和累加器)

spark共享变量：累加器与广播变量

spark学习记录（八、广播变量和累加器）

大数据Spark06_广播变量、累加器

spark的广播变量和累加器的用法

Spark：广播变量和累加器的使用

spark中的累加器和广播变量

Spark Streaming 解析-累加器和广播变量

SparkCore 累加器和广播变量(Spark编程进阶)

Spark中的累加器(accumlator)和广播变量(broadcast)

Spark中广播变量和累加器

Spark 系列（六）—— 累加器与广播变量

Spark_RDD累加器和广播变量

Spark_RDD累加器和广播变量

入门大数据---Spark累加器与广播变量

spark广播变量，累加器和SparkShuffle

【Spark】RDD 广播变量和累加器

大数据：spark共享广播变量，累加器

Spark学习之路（四）Spark的广播变量和累加器[转]

Spark 从 0 到 1 学习(4) —— Apache Spark 广播变量和累加器

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)