05 Utilizar las estadísticas de frecuencia de palabras chispa [Scala SBT]

Hemos aprendido en el modo interactivo para completar la palabra estadísticas de frecuencia de chispa entre la línea de comandos, esta sección se explicará el uso del medio ambiente SBT código Scala idea completa de ellos, y las estadísticas de frecuencia de palabras.

1 Los sistemas de software, y la premisa limitaciones

  • CentOS 7 64 estaciones de trabajo de la máquina es ip 192.168.100.200, nombre de host Danji, el lector se establece de acuerdo con su situación real
  • modo interactivo Scala Terminado en las estadísticas de frecuencia de palabras Linux
    https://www.jianshu.com/p/92257e814e59
  • Las estadísticas deben ser archivos de texto subidos a HDFS, como su nombre / palabra
  • El primer programa de prueba se ha completado idea Scala de
    https://www.jianshu.com/p/ec64c70e6bb6
  • idea 2018.2
  • El permiso para eliminar los efectos de la operación, todas las operaciones se llevan a cabo con el fin de raíz

2 operación

  • 1 Cree idea de proyecto en SBT
    seleccione Archivo-> Nuevo-> Proyecto-> Scala-> sbt-> Siguiente
    La creación de un proyecto de SBT
    tomar algún tiempo.
  • Configuración Dependencias 2:
    Añadir el siguiente en build.sbt:
libraryDependencies += "org.apache.spark" %% "spark-core" % "2.1.0"
  • 3 WordCount.scala crear una clase en src / / Scala principal con los siguientes contenidos
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
 
object ScalaWordCount {
  def main(args: Array[String]): Unit = {
   //在windows下执行,必须设置本地的hadoop安装路径,倘若打成jar包,上传到linux,则不需要设置
    System.setProperty("hadoop.home.dir", "C:\\hadoop2.7.2")
    val conf: SparkConf = new SparkConf().setAppName("WordCount").setMaster("local[2]")
    // 创建SparkContext
    val sc: SparkContext = new SparkContext(conf)
    sc.textFile("hdfs://192.168.100.200:9000/word")
      .flatMap(_.split(" "))
      .map((_,1))
      .reduceByKey(_+_)
      .saveAsTextFile("hdfs://192.168.100.200:9000/outputscala")

    // 释放资源
    sc.stop()
  }
}
  • 4 ejecución, entre vista servicio HDFS outputscala se puede ver los resultados.
    Lo anterior es una chispa que utilizamos en las estadísticas de frecuencia de la palabra proceso Scala.

Supongo que te gusta

Origin www.cnblogs.com/alichengxuyuan/p/12576807.html
Recomendado
Clasificación