spark 版 WordCount 程序分析

目录

  • 1、开发环境 idea+maven+spark
  • 2、程序代码
  • 3、集群提交

1、开发环境 idea+maven+spark

使用idea,创建maven工程,使用scala 编写程序,打包jar并运行在集群中

2、程序代码

package cn.learn.spark

import org.apache.spark.{SparkConf, SparkContext}

object WordCount {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("WC")
    val sc = new SparkContext(conf)
    sc.textFile(args(0)).flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false ).saveAsTextFile(args(1))
    sc.stop()
  }
}

3、集群提交

进入spark的bin目录,提交代码如下:

./spark-submit   \

--master spark://hbase1:7077   \                      ------->  spark集群的主节点

--class cn.learn.spark.WordCount   \               ------->  wordCount 程序入口main方法

--total-executor-cores 2   \                               ------->  指定执行器总核数

--executor-memory 512m   \                            ------->  指定每个核占用内存

/home/hadoop/helloSpark-1.0.jar   \                ------->  指定程序jar的位置

hdfs://hbase1:9000/wc    \                               ------->  指定程序参数一:输入集合

hdfs://hbase1:9000/out2                                  ------->  指定程序参数二:输出集合

猜你喜欢

转载自blog.csdn.net/py_tamir/article/details/86567123