03 Utilizar las estadísticas de frecuencia palabra chispa [Python]

Esta sección muestra cómo las estadísticas de frecuencia de palabras de la pitón de la chispa.

1 Los sistemas de software, y la premisa limitaciones

  • CentOS 7 64 estaciones de trabajo de la máquina es ip 192.168.100.200, nombre de host Danji, el lector se establece de acuerdo con su situación real
  • Completado manera Scala de estadísticas de frecuencia de palabra
    https://www.jianshu.com/p/92257e814e59
  • Las estadísticas deben ser archivos de texto subidos a HDFS, como su nombre / palabra
  • El permiso para eliminar los efectos de la operación, todas las operaciones se llevan a cabo con el fin de raíz

2 operación

  • 1. Entrar como root a 192.168.100.200 Xshell
  • 2. Vaya al directorio bin chispa de una nueva wordcount.py, dice lo siguiente:
from operator import add
from pyspark import SparkContext

def word_count():
    sc = SparkContext(appName="wordcount")
    textFile= sc.textFile("/word")
    result = textFile.flatMap(lambda x: x.split(" ")) \
        .map(lambda x: (x, 1)) \
        .reduceByKey(add) \
        .sortBy(lambda x: x[1], False).take(3)
    for k, v in result:
        print k, v
if __name__ == '__main__':
    word_count()

Guardar y salir.

  • 3. Realizar
./spark-submit --master local wordcount.py

Esperar a ver los resultados.
Lo anterior es el proceso que utilizamos pitón en la chispa que las estadísticas de frecuencia, el lector de prestar especial atención a los textos de las limitaciones de sintaxis pitón.

Supongo que te gusta

Origin www.cnblogs.com/alichengxuyuan/p/12576801.html
Recomendado
Clasificación