1. Instalación
El entorno Linux
utiliza pyspark y jupyter notebook como herramientas interactivas.
Vea Spark Getting Started específicamente .
2. El primer programa
Calcule el pi:
import random
num_samples = 100000000
def inside(p):
x, y = random.random(), random.random()
return x*x + y*y < 1
count = sc.parallelize(range(0, num_samples)).filter(inside).count()
pi = 4 * count / num_samples
print(pi)
sc.stop()
Resultado de la operación:
3.1417056
Referencia: