广告统计top3（二） - 代码天地

广告统计top3（二）

其他 2020-10-28 10:37:04 阅读次数: 0

数据字段：时间戳，省份，城市， userId， adId
统计每一个省份每一个小时的广告id访问量top3

package com.jxlg.RDD

import org.apache.spark.{
    
    SparkConf, SparkContext}
import org.joda.time.DateTime

/**
 * 数据字段： 时间戳   省份   城市   userId  adId
 * 统计每一个省份每一个小时的广告id访问量top3
 */
object AdventTop3_2 {
    
    
  def main(args: Array[String]): Unit = {
    
    
    val conf = new SparkConf().setAppName("AdventTop3_2").setMaster("local[2]")
    val sc =new SparkContext(conf)
    val logsArr = sc.textFile("hdfs://192.168.157.132:9000/user/hdfs/add.txt").map(_.split("\t"))
    //将数据整合成元组，便于聚合，key= 省份+小时+广告id
    val proAndHourAndAdId = logsArr.map(arr => {
    
    
      val province = arr(1)
      val hour = getHour(arr(0))
      val adId = arr(4)
      (province+"_"+hour+"_"+adId,1)
    })
    //聚合生成每一个省份的每一个小时的广告点击量
    val aggred = proAndHourAndAdId.reduceByKey(_+_)
    //重新整合数据，便于接下来的分组排序
   val proAndHourTup =  aggred.map(tup => {
    
    
     val splited = tup._1.split("_")
      val pro = splited(0)
      val hour = splited(1)
      val adId = splited(2)
      ((pro,hour),adId,tup._2)
    })
    //用省份和小时进行分组
    val grouped = proAndHourTup.groupBy(_._1)

    //开始组内排序
    val res = grouped.mapValues(x => x.toList.sortWith(_._3>_._3).take(3))

    println(res.collect.toBuffer)

    sc.stop()


  }

  /**
   * 获取时间戳的小时方法
   * @param time_long
   * @return
   */
  def getHour(time_long : String): String ={
    
    
    val dateTime = new DateTime(time_long.toLong)
    dateTime.getHourOfDay.toString
  }
}

猜你喜欢

转载自blog.csdn.net/qq_42706464/article/details/108307227

广告统计top3（二）

广告统计top3（一）

Spark RDD算子实例——统计广告点击量 Top3

118.Spark大型电商项目-广告点击流量实时统计-计算每天各省的top3热门广告

SparkStreamin 广告流量实时点击生成黑名单过滤黑名单各省市各广告实时统计每天各省top3广告

0904-各区域Top3商品统计

mapreduce——Top3(TopN)

java spark 计算各个省份广告点击数的top3

Spark Streaming项目实战(1) | 每天每地区热门广告 Top3

统计所有用户对每个学科的各个模块的访问次数，再取Top3

Spark Streaming 项目实战 (3) | 得到每天每地区热门广告Top3并写入到redis

48、Spark SQL之与Spark Core整合之每日top3热点搜索词统计案例实战

Python，首次进入语言排名TOP3！！！

数据竞赛：记录3天进入比赛Top3%的全过程

未来杯总结5--利用已有模型predict top3

Spark项目练习（计算用户访问学科子网页的top3）

2018年7月份JAVA开源软件TOP3

2018年7月份前端开源软件TOP3

Array.sort() 升序降序 -- 成绩前三名 TOP3

京东竞赛Top3分享|王师广：时尚服装中的属性识别

计算出用户上网流量总流量（上行+下行）最高的网站Top3

极市&电大 | 京东AI时尚挑战赛Top3技术方案

不变的 Top3 终于变了，6 月编程语言排行榜！

万年不变的 Top3 终于变了，6 月编程语言排行榜

快服务常见TOP3审核雷区，再不过审就要崩溃啦！

Spark SQL 项目实战 | 计算各区域热门商品 Top3

SparkSql 项目实战 | 各区域热门商品Top3

阿里云跻身全球SaaS云市场TOP3 成为亚太唯一入围厂商

阿里云容器服务入选云原生边缘「领导力企业TOP3」

2021 GitHub年度排行榜出炉！中文Top3项目诞生！

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)