Pyspark 基本紹介 6_RDD 共有変数

ピスパーク

注: ブログが良いと思ったら、いいねと収集を忘れないでください. 人工知能とビッグデータに関連するコンテンツを毎週更新します. コンテンツのほとんどはオリジナルです, Python Java Scala SQL コード, CV NLPレコメンデーション システムなど、Spark Flink Kafka、Hbase、Hive、Flume などはすべて純粋な乾物であり、さまざまなトップ会議論文の解釈が一緒に進行します。本日も引き続き Pyspark 基礎入門 6 #博学谷ITラーニング テクニカルサポート を
お伝えします



序文

今日あなたと共有するのは、Spark RDD の共有変数です


1.ブロードキャスト変数

ドライバ側で共有変数を定義します. ブロードキャスト変数が使用されていない場合, 各スレッドは実行時にこの変数を独自のスレッドにコピーする必要があります. ネットワーク伝送とメモリの使用は無駄であり, 効率に影響します.

ブロードキャスト変数が使用されている場合、変数のコピーが各エグゼキュータに配置され、各スレッドはエグゼキュータ上の変数をタスクにプルすることなく直接読み取ることができるため、コピーの数が減り、ネットワークおよびネットワークへの影響が軽減されます。これにより効率が向上します

ブロードキャスト変数は読み取り専用であり、各タスクはデータの読み取りのみ可能で、変更はできません

関連 API:
ブロードキャスト変数の設定: ブロードキャスト変数のオブジェクト = sc.broadcast(変数値)
ブロードキャスト変数の取得: ブロードキャスト変数のオブジェクト.値

1. 使い方

from pyspark import SparkContext, SparkConf
import os

# 锁定远端环境, 确保环境统一
os.environ['SPARK_HOME'] = '/export/server/spark'
os.environ['PYSPARK_PYTHON'] = '/root/anaconda3/bin/python3'
os.environ['PYSPARK_DRIVER_PYTHON'] = '/root/anaconda3/bin/python3'

if __name__ == '__main__':
    print("演示广播变量相关使用")

    # 1. 创建SparkContext对象:
    conf = SparkConf().setAppName('sougou').setMaster('local[*]')
    sc = SparkContext(conf=conf)

    # a = 100
    broadcast = sc.broadcast(100)

    # 2- 初始化数据:
    rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7])

    # 3- 处理数据:

    # 需求: 请为每一个元素累加一个值
    def fn1(num):
        return num + broadcast.value

    rdd_res = rdd.map(fn1)

    print(rdd_res.collect())

2. アキュムレータ

Spark はアキュムレータを提供します。これは、アキュムレータを使用して実装できる、グローバルに操作されたデータの量など、グローバルな累積計算操作を実装するために使用できます。

アキュムレータはDriver側で設定した初期値で、Taskごとに累積演算を行い、最終的にDriver側で結果を取得する

タスクは操作を累積することしかできず、アキュムレータの値を読み取ることはできません

関連 API:
1- ドライバー側のアキュムレータの初期値を設定:
acc = sc.accumulator(initial value)
2- タスク (RDD) で: 累積演算
acc.add(accumulated value)を実行
3- 値を取得Driver
acc. 値

1. 使い方

from pyspark import SparkContext, SparkConf
import os

# 锁定远端环境, 确保环境统一
os.environ['SPARK_HOME'] = '/export/server/spark'
os.environ['PYSPARK_PYTHON'] = '/root/anaconda3/bin/python3'
os.environ['PYSPARK_DRIVER_PYTHON'] = '/root/anaconda3/bin/python3'

if __name__ == '__main__':
    print("演示累加器相关的操作:")

    # 1. 创建SparkContext对象:
    conf = SparkConf().setAppName('sougou').setMaster('local[*]')
    sc = SparkContext(conf=conf)

    # 定义一个累加的变量
    # agg = 0
    acc = sc.accumulator(0)

    # 2- 初始化数据:
    rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7])

    # 3- 执行相关的操作:
    # 需求: 对每个元素进行 +1 返回, 在执行操作的过程汇总, 需要统计共计对多少个数据进行 +1操作
    def fn1(num):
        acc.add(1)
        return num + 1

    rdd_res = rdd.map(fn1)


    # 3- 获取结果
    print(rdd_res.collect())

    print(acc.value)
如果后续多次调用action算子, 会导致累加器重复累加操作

主要原因: 每一次调度action算子, 都会触发一个Job任务执行, 每一个Job任务都要重新对象其所依赖的所有RDD进行整个计算操作, 从而导致累加器重复累加

解决方案:
	在调用累加器后的RDD上, 对其设置缓存操作, 即可解决问题, 但是不能单独设置checkpoint, checkpoint和累加器无法直接共用, 可以通过缓存 + 累加器的思路来解决
主要原因: 每一次调度action算子, 都会触发一个Job任务执行, 每一个Job任务都要重新对象其所依赖的所有RDD进行整个计算操作, 从而导致累加器重复累加

解决方案:
	在调用累加器后的RDD上, 对其设置缓存操作, 即可解决问题, 但是不能单独设置checkpoint, checkpoint和累加器无法直接共用, 可以通过缓存 + 累加器的思路来解决

要約する

今日は、RDD の 2 つの共有変数を共有しました。

おすすめ

転載: blog.csdn.net/weixin_53280379/article/details/129377536