Artikelverzeichnis
1. Broadcast-Variablen
Wenn wir in Spark eine Aufgabe ausführen, erhält jede Kopie der Aufgabe eine Kopie aller von dieser Aufgabe verwendeten Variablen. Das heißt, wenn ein großer Datensatz in mehreren Spark-Aufgaben verwendet wird, werden mehrere Kopien des Datensatzes an jeden Knoten im Cluster gesendet, was zu einem großen Netzwerkverkehr führen kann.
Um dieses Problem zu lösen, führt Spark Broadcast-Variablen ein. Broadcast-Variablen werden verwendet, um einen großen schreibgeschützten Wert effizient an alle Worker-Knoten zu senden und so den Datenübertragungsaufwand zu reduzieren.
Im Folgenden sind die grundlegenden Merkmale und die Verwendung von Broadcast-Variablen aufgeführt:
-
Schreibgeschützte Funktionen:
- Die Broadcast-Variable ist a