IDEA增加Spark依赖关系及其简单使用-词频统计 - 代码天地

IDEA增加Spark依赖关系及其简单使用-词频统计

企业开发 2023-06-22 00:43:24 阅读次数: 0

修改 Maven 项目中的 POM 文件，增加 Spark 框架的依赖关系，使用时请注意对应版本。

<dependencies>
    <!--spark依赖，注意版本号-->
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-core_2.12</artifactId>
        <version>3.0.0</version>
    </dependency>
</dependencies>

代码：


import org.apache.spark.rdd.RDD
import org.apache.spark.{
    
    SparkConf, SparkContext}

object Spark02_WordCount {
    
    
    def main(args: Array[String]): Unit = {
    
    
        // 1.建立和Spark框架的连接
        var sparkConf = new SparkConf().setMaster("local").setAppName("WordCount")
        var sc = new SparkContext(sparkConf)
        // 2.执行业务操作

        // 2.1读取文件，获取一行一行的数据
        val lines:RDD[String] = sc.textFile("datas")
        // 2.2将每行数据切分，形成一个一个的单词
        val words:RDD[String] = lines.flatMap(_.split(" "))
        val word2One: RDD[(String, Int)] = words.map(
            word => (word, 1)
        )
        // 2.3 4 spark可以将分组和聚合使用同一个方法实现
        // word2One.reduceByKey((x,y) => {x+y})
        // word2One.reduceByKey((x,y) => x+y)
        val word2Count: RDD[(String, Int)] = word2One.reduceByKey(_ + _)

        // 2.5打印结果
        val tuples: Array[(String, Int)] = word2Count.collect()
        tuples.foreach(println)

        //3. 关闭连接
        sc.stop()
    }
}

其中datas下面分别有两个txt文件（1.txt与2.txt），文件里面保存了需要统计的文本，datas文件夹要保存到项目的根目录下。
运行结果会打印出每个单词及其出现的个数，每个单词及其出现个数组成一个元组。

猜你喜欢

转载自blog.csdn.net/qq_45097352/article/details/119358058

IDEA增加Spark依赖关系及其简单使用-词频统计

使用Spark实现词频统计

03 使用spark进行词频统计【python】

spark ---词频统计(二)

spark词频统计

【Spark RDD：词频统计】

使用Spark Streaming整合Spark SQL完成词频统计操作

使用shell实现简单的词频统计

spark学习（二）之简单应用程序——词频统计

02 使用spark进行词频统计【scala交互】

05 使用spark进行词频统计【scala sbt】

词频统计及其效能分析

spark----词频统计(一)

spark学习（词频统计案例）

Spark RDD文件词频统计

Spark Streaming词频统计实例

Spark RDD案例：词频统计

用Spark实现的词频统计

Idea创建maven父子工程及其依赖关系

Spark Streaming和Spark SQL关联使用，实现词频统计（scala）

简单的结巴分词与词频统计

使用IDEA查看POM依赖关系

统计文本中token及其词频

Spark——RDD 依赖关系

Spark的RDD依赖关系

Spark环境安装部署及词频统计实例

Spark基于Java Api 的词频统计

Spark词频前十的统计练习

Spark2.4.5词频统计(python)

使用Storm进行词频统计

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)