Spark RDD--1 WordCount - 代码天地

Spark RDD--1 WordCount

其他 2019-02-28 09:51:19 阅读次数: 0

版权声明：未经同意，严禁抄袭。 https://blog.csdn.net/qq_36235275/article/details/82502004

简单的WordCount用scala编写（用的本地模式）

package com.jiangnan.spark

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object ScalaWordCount {
  def main(args: Array[String]): Unit = {
    System.setProperty("HADOOP_USER_NAME","root");
    //创建spark配置对象，设置APP名字
    //val conf = new SparkConf().setAppName("ScalaWordCount")
    val conf = new SparkConf().setAppName("LocalScalaWordCount").setMaster("local[4]")
    //获取spark程序入口对象
    val sc = new SparkContext(conf)
    //设置数据源，要将什么数据读取到RDD（弹性分布式数据集）中

    //首先获取数据放入RDD中
    val line:RDD[String] = sc.textFile(args(0))
    //对数据进行切分
    val words:RDD[String] = line.flatMap(_.split(" "))
    //将单词和1组合到元祖中
    val wo:RDD[(String,Int)] = words.map((_,1))
    //可以根据key聚合reduce
    val reduced:RDD[(String,Int)] = wo.reduceByKey(_+_)
    //排序
    val sort = reduced.sortBy(_._2,false)
    //保存结果
    reduced.saveAsTextFile(args(1))
    //释放资源
    sc.stop()
  }
}

当然也可以一步实现，这才是scala的魅力所在

 System.setProperty("HADOOP_USER_NAME","root");
    //创建spark配置对象，设置APP名字
    val conf = new SparkConf().setAppName("LocalScalaWordCount").setMaster("local[4]")
    //获取spark程序入口对象
    val sc = new SparkContext(conf) 
    sc.textFile(args(0)).flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).saveAsTextFile(args(1))

猜你喜欢

转载自blog.csdn.net/qq_36235275/article/details/82502004

Spark RDD--1 WordCount

RDD编程基础学习笔记1_Spark优雅的wordCount

Spark的WordCount产生多少个RDD

Spark WordCount

Spark的WordCount

Spark的WordCount到底产生了多少个RDD

spark的学习（1）之使用spark进行WordCount词数统计

Spark学习--3、WordCount案例、RDD序列化、RDD依赖关系、RDD持久化

spark eclipse写wordcount

Spark入门之WordCount

Spark wordCount案例

spark 例子wordcount topk

Spark的WordCount练习（二）

Spark wordcount入门

spark---01---wordcount

spark的wordcount执行流程

spark入门程序WordCount

Spark job WordCount分析

Spark核心编程-WordCount

Spark- WordCount Demo

使用 Spark 创建WordCount

Spark写WordCount

WordCount在Spark的执行原理

spark_wordcount

spark streaming中WordCount

Spark WordCount 执行流程

spark wordcount 单词统计

Spark实现WordCount

Spark+IDEA+WordCount

Spark开发wordcount程序

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)