Esta sección muestra cómo las estadísticas de frecuencia de palabras de la pitón de la chispa.
1 Los sistemas de software, y la premisa limitaciones
- CentOS 7 64 estaciones de trabajo de la máquina es ip 192.168.100.200, nombre de host Danji, el lector se establece de acuerdo con su situación real
- Completado manera Scala de estadísticas de frecuencia de palabra
https://www.jianshu.com/p/92257e814e59 - Las estadísticas deben ser archivos de texto subidos a HDFS, como su nombre / palabra
- El permiso para eliminar los efectos de la operación, todas las operaciones se llevan a cabo con el fin de raíz
2 operación
- 1. Entrar como root a 192.168.100.200 Xshell
- 2. Vaya al directorio bin chispa de una nueva wordcount.py, dice lo siguiente:
from operator import add
from pyspark import SparkContext
def word_count():
sc = SparkContext(appName="wordcount")
textFile= sc.textFile("/word")
result = textFile.flatMap(lambda x: x.split(" ")) \
.map(lambda x: (x, 1)) \
.reduceByKey(add) \
.sortBy(lambda x: x[1], False).take(3)
for k, v in result:
print k, v
if __name__ == '__main__':
word_count()
Guardar y salir.
- 3. Realizar
./spark-submit --master local wordcount.py
Esperar a ver los resultados.
Lo anterior es el proceso que utilizamos pitón en la chispa que las estadísticas de frecuencia, el lector de prestar especial atención a los textos de las limitaciones de sintaxis pitón.