广告统计top3（一） - 代码天地

广告统计top3（一）

其他 2020-10-28 10:37:07 阅读次数: 0

数据字段：时间戳省份城市 userId adId
需求：求每一个省份的点击广告的top3

package com.jxlg.RDD

import org.apache.spark.{
    
    SparkConf, SparkContext}

/**
 * 数据字段： 时间戳   省份   城市   userId  adId
 * 需求： 求每一个省份的点击广告的top3
 */
object AdventTop3_1 {
    
    
  def main(args: Array[String]): Unit = {
    
    
    val conf = new SparkConf()
    conf.setAppName("top3统计")
    conf.setMaster("local[3]")
    val sc = new SparkContext(conf)

    val logs = sc.textFile("hdfs://192.168.157.132:9000/user/hdfs/add.txt")
    val logArr = logs.map(_.split("\t"))
    //提取需求分析的数据
    val  provinceAndAdId=logArr.map(x=> (x(1)+"_"+x(4),1))
    //将每一个省份的对应的广告点击量进行统计
    val aggrProvinceAndId = provinceAndAdId.reduceByKey(_+_)
    //为了方便接下来进行省份的分组并组内排序，需要数据进行整合
    val provinceAndAdIdTup = aggrProvinceAndId.map(tup => {
    
    
      val splited=tup._1.split("_")
      val province = splited(0)
      val adId =splited(1)
      (province,adId,tup._2)
    })
    //按照省份进行分组
    val groupedPro = provinceAndAdIdTup.groupBy(_._1)
    //组内排序
    val res = groupedPro.mapValues(x => x.toList.sortWith(_._3>_._3).take(3))

    println(res.collect.toBuffer)
    sc.stop()

  }

}

猜你喜欢

转载自blog.csdn.net/qq_42706464/article/details/108307160

广告统计top3（一）

广告统计top3（二）

Spark RDD算子实例——统计广告点击量 Top3

118.Spark大型电商项目-广告点击流量实时统计-计算每天各省的top3热门广告

SparkStreamin 广告流量实时点击生成黑名单过滤黑名单各省市各广告实时统计每天各省top3广告

0904-各区域Top3商品统计

mapreduce——Top3(TopN)

java spark 计算各个省份广告点击数的top3

Spark Streaming项目实战(1) | 每天每地区热门广告 Top3

统计所有用户对每个学科的各个模块的访问次数，再取Top3

Spark Streaming 项目实战 (3) | 得到每天每地区热门广告Top3并写入到redis

阿里云跻身全球SaaS云市场TOP3 成为亚太唯一入围厂商

48、Spark SQL之与Spark Core整合之每日top3热点搜索词统计案例实战

Python，首次进入语言排名TOP3！！！

杭州全球人工智能技术创新大赛-商品标题实体识别一等奖方案（top3）

数据竞赛：记录3天进入比赛Top3%的全过程

未来杯总结5--利用已有模型predict top3

Spark项目练习（计算用户访问学科子网页的top3）

2018年7月份JAVA开源软件TOP3

2018年7月份前端开源软件TOP3

Array.sort() 升序降序 -- 成绩前三名 TOP3

京东竞赛Top3分享|王师广：时尚服装中的属性识别

计算出用户上网流量总流量（上行+下行）最高的网站Top3

极市&电大 | 京东AI时尚挑战赛Top3技术方案

不变的 Top3 终于变了，6 月编程语言排行榜！

万年不变的 Top3 终于变了，6 月编程语言排行榜

快服务常见TOP3审核雷区，再不过审就要崩溃啦！

Spark SQL 项目实战 | 计算各区域热门商品 Top3

SparkSql 项目实战 | 各区域热门商品Top3

阿里云容器服务入选云原生边缘「领导力企业TOP3」

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)