spark对单词统计算法实现 - 代码天地

spark对单词统计算法实现

编程语言 2019-06-15 18:52:09 阅读次数: 0

spark对单词进行统计，可以有独立模式和集群模式，独立模式下可以直接对单词进行统计
import org.apache.spark.{SparkConf,SparkContext}
object WordCount {
  def main(args: Array[String]): Unit={
  val conf =new SparkConf()
    conf.setAppName("WordCountScala")
   // conf.setMaster("local[3]")     //独立模式
    //创建 sparkContext对象
    val sc=new SparkContext(conf)
    //加载文件
    //val rdd1=sc.textFile(("file:///G:/downloads/bigdata/wc.txt"),5)    //独立模式
    val rdd1=sc.textFile(args(0),3)         //集群模式
    //压扁
    val rdd2=rdd1.flatMap(_.split(" "))
    //标一成对
    val rdd3=rdd2.map((_,1))
    //聚合
    val rdd4=rdd3.reduceByKey(_+_)
    var arr=rdd4.collect()
    arr.foreach(println(_))
  }
}

集群模式下，需要将类文件打成jar包。

a)上传jar到hdfs
               hdfs dfs -put myspark.jar /user/hadoop/data
           b)执行
               spark-submit --master spark://s101:7077 --class WordCountScala --deploy-mode cluster hdfs://mycluster/user/hadoop/data/myspark.jar /user/hadoop/data/wc.txt

猜你喜欢

转载自blog.csdn.net/nengyu/article/details/92076340

spark对单词统计算法实现

Spark 提供的概率与统计算法 - 基本统计算法

统计算法_1

Python实现文本词频统计算法及完整代码

Spark ML 数值类型与数据汇总基础统计算法详解-Spark商业ML实战

统计算法_概率基础

基数统计算法--HyperLogLog

文本相似性热度统计算法实现（一）-整句热度统计

常用统计算法JAVA实现 - 卡方检验（16）

粗粒度服务的执行时间统计算法实现及问题推广

算法导论（四）之统计算法

对词频统计算法的代码实践

gephi中的统计算法学习

统计算法_数值/线性关系度量

Sentinel的降级策略和统计算法分析

Redis-HyperLogLog-基数统计算法

算法-复杂度分析：如何分析、统计算法的执行效率和资源消耗？

算法设计与分析课程复习笔记6——统计算法

R学习之统计算法与R优化包（Newton法） --（R语言编程）-----数模

复杂度分析（上）如何分析统计算法的执行效率和资源消耗

一个数字在排序数组中出现的次数的统计算法 php

复杂度分析（上）：如何分析、统计算法的执行效率和资源消耗？

复杂度分析：如何分析、统计算法的执行效率和资源消耗

spark复习笔记(3)：使用spark实现单词统计

03-算法复杂度分析（上）：如何分析、统计算法的执行效率与资源消耗

算法系列-复杂度分析：如何分析、统计算法的执行效率和资源消耗？

java学习中的一些小算法抽取之字节数量统计算法

Storm 流计算实现wordcount(单词统计)

spark wordcount 单词统计

Spark实战：单词统计

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)