Spark-分组TOPN算法：

其他 2019-01-10 22:33:02 阅读次数: 0

该数据集都为：“http://bigdata.edu360.cn/laozhou” 这个样子，要求的就是最受欢迎的老师
分组TOPN算法：

object FavTeacher {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("FavTeacher").setMaster("local")
    val sc = new SparkContext(conf)
    //指定以后从哪里读取数据
    val lines = sc.textFile(args(0))
    //整理数据
    val teacherAndOne = lines.map(line => {
      //val line = "http://bigdata.edu360.cn/laozhou"
      val conSubject = line.split("/")(2)
      val subject =conSubject.split("[.]")(0)
      val teacher = line.split("/")(3)
      (teacher, 1)
    })
    //聚合
    val reduced = teacherAndOne.reduceByKey(_+_)
    //排序
    val sorted = reduced.sortBy(_._2, false)
    //触发Action执行计算
    val result = sorted.collect()
    //打印
    println(result.toBuffer)
    sc.stop()
  }
}

猜你喜欢

转载自blog.csdn.net/weixin_43672855/article/details/85219116

Spark-分组TOPN算法

Spark-分组TOPN算法：

spark分组取topN

spark 分组取topn

Spark：求出分组内的TopN

Spark TopN 算法的实现

Spark core分组取topN案例

Spark-Java分组取TopN的优化

【Spark 应用】实现分组取topN

数据算法——Spark的TopN实现

spark学习三——spark案例分析分组TopN

分组topN

Spark RDD 分组求TopN三种实现

Spark分组TopN（SQL风格SDL风格）另附：RDD操作

Spark: topN

hive 分组topN

mongodb 分组 topN

分组求topn

SQL 分组计算 topN

SQL再谈分组topN

Spark-环境搭建

spark-数据分区

Spark- WordCount Demo

Spark->预热

Spark- Action实战

Spark- Transformation实战

Spark-共享变量

Spark-介绍

Spark-资源调度

Spark-任务调度

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)