Spark -- WordCount程序 - 代码天地

Spark -- WordCount程序

其他 2019-02-23 22:11:19 阅读次数: 0

Spark -- WordCount程序

package com.bigdata.example

import org.apache.spark.{SparkConf, SparkContext}


object WordCount {
  def main(args: Array[String]): Unit = {
    /**
      * 创建spark的配置对象。设置spark程序运行时候的配置空间
      * setAppName 用来设置APP的名称
      * setMaster 用来设置程序的运行模式，本地 还是 集群。
      *     本地可以设置local【*】，
      *     集群可以以Standalone 模式 ，需要使用sparl://host:port
      *
      */
    val conf = new SparkConf()
    conf.setAppName("WordCount")
    conf.setMaster("lical[2]")
    /**
      *  sc 是 spark程序的唯一入口
      *  sc核心作用，初始化 spark 和核心入口，所有组件，包括DAGScheduler 、 Taskscheduker
      *  还负责 spark程序向master 注册程序
      */
    val sc = new SparkContext(sc)

    /**
      * 根据具体的数据源，通过sparkcontext创建rdd
      * rdd 的创建、外部来源，通过Scala的集合使用然而产生rdd，通过rdd产生rdd
      */
    var line = sc.textFile("localPath",2)
    /**
      * 用函数进行计算，统计词频
      */
    var words = line.flatMap(_.split(",")).flatMap(_.split(" ")).filter(word =>  word != "   ")

    var pairs = words.map(word => (word,1))

    var wordCounts = pairs.reduceByKey(_+_)
    //开始计算
    var result = wordCounts.collect()
    //循环
    result.foreach(println(_))

    sc.stop()
   }
}

猜你喜欢

转载自www.cnblogs.com/Tonyzczc/p/10424417.html

spark入门程序WordCount

Spark开发wordcount程序

Spark -- WordCount程序

Spark 编写WordCount程序

spark wordcount程序

Spark的Wordcount程序图文详解！

spark 版 WordCount 程序分析

spark程序入门-wordCount详解总结

在Spark Shell中编写WordCount程序

spark-shell开发wordcount程序

spark：开发本地测试的wordcount程序

Spark WordCount

Spark的WordCount

spark wordcount 第一个spark 程序

Spark系列(五)IDEA编写及调试Spark的WordCount程序

【Spark】Spark On Yarn 环境搭建及 WordCount 程序原理深度剖析

Spark里WordCount程序三种写法

java使用spark2开发本地测试的wordCount程序

第一个spark程序----WordCount

4、wordcount程序原理剖析及Spark架构原理

Kubernetes编译并运行基于Scalar的Spark程序WordCount（二）

Spark运行第一个Scala程序WordCount

Linux安装Spark+pyspark，运行wordCount程序

03-第一个Spark程序WordCount

【Spark】Spark六： Spark版本的WordCount

spark eclipse写wordcount

Spark入门之WordCount

Spark wordCount案例

spark 例子wordcount topk

Spark的WordCount练习（二）

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)