大数据入门：Spark+Kudu的广告业务项目实战笔记(二)

其他 2020-03-01 15:55:30 阅读次数: 0

第一章点这里传送

1.功能二开发

统计省份、城市数量分布情况，按照provincename与cityname分组统计

package com.imooc.bigdata.cp08.business

import com.imooc.bigdata.cp08.utils.SQLUtils
import org.apache.spark.sql.SparkSession

object ProvinceCityStatApp {

  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .master("local[2]")
      .appName("ProvinceCityStatApp")
      .getOrCreate()

    //从Kudu的ods表中读取数据，然后按照省份和城市分组即可
    val sourceTableName = "ods"
    val masterAddress = "hadoop000"

    val odsDF = spark.read.format("org.apache.kudu.spark.kudu")
      .option("kudu.table", sourceTableName)
      .option("kudu.master", masterAddress)
      .load()
    //odsDF.show(false)

    odsDF.createOrReplaceTempView("ods")
    val result = spark.sql(SQLUtils.PROVINCE_CITY_SQL)
    result.show(false)

    spark.stop()
    
  }

}

其中SQLUtils中填写SQL代码：

 lazy val PROVINCE_CITY_SQL = "select provincename,cityname,count(1) as cnt from ods group by provincename,cityname" lazy val PROVINCE_CITY_SQL = "select provincename,cityname,count(1) as cnt from ods group by provincename,cityname"

运行结果如图所示：

2.数据落地Kudu

其中KuduUtils.sink内容详见上一篇文章：

    val sinkTableName = "province_city_stat"
    val partitionId = "provincename"
    val schema = SchemaUtils.ProvinceCitySchema

    KuduUtils.sink(result,sinkTableName,masterAddress,schema,partitionId)

其中的Schema信息为：

  lazy val ProvinceCitySchema: Schema = {
    val columns = List(
      new ColumnSchemaBuilder("provincename",Type.STRING).nullable(false).key(true).build(),
      new ColumnSchemaBuilder("cityname",Type.STRING).nullable(false).key(true).build(),
      new ColumnSchemaBuilder("cnt",Type.INT64).nullable(false).key(true).build()
    ).asJava

    new Schema(columns)
  }

导入之后查一下：

    spark.read.format("org.apache.kudu.spark.kudu")
      .option("kudu.master",masterAddress)
      .option("kudu.table",sinkTableName)
      .load().show()

有数据就可以啦，啵啵啵！

Tai_Park

发布了66 篇原创文章 · 获赞 28 · 访问量 1万+

私信关注

猜你喜欢

转载自blog.csdn.net/qq_36329973/article/details/104513468

大数据入门：Spark+Kudu的广告业务项目实战笔记(二)

大数据入门：Spark+Kudu的广告业务项目实战笔记(一)

大数据入门：Spark+Kudu的广告业务项目实战笔记(六)

大数据入门：Spark+Kudu的广告业务项目实战笔记(五)

大数据入门：Spark+Kudu的广告业务项目实战笔记(四)

大数据入门：Spark+Kudu的广告业务项目实战笔记(三)

SparkSQL极速入门整合Kudu实现广告业务数据分析

关于广告业务的数据分析主题的思考

广告业务系统之数据中转站 —— “日志中心-实时服务监控”

广告业务系统之框架沉淀 —— “数据消费型服务框架”

媒体广告业务管理系统

移动端闪屏广告业务设计模式

广告业务测试记录总结(一)

告诉你个广告业务存储神器

广告业务系统之承前启后 —— “消息中心”

广告业务系统之数据桥梁 —— “日志中心-曝光数据流转结算”

广告业务系统之业务串联 —— “ PDB - 广告投放【保量保价】”

把广告投给你要几步，一文带你了解广告业务

Facebook：明年3月底前或推移动广告业务

www.stockemotion.com抖音广告业务被暂停

Python爬虫爬取百度广告业务

KDD Cup 2020多模态召回比赛季军方案与广告业务应用

OCPC系列三 - 展开说说广告业务及算法介绍

广告业务系统之辅助决策 —— “ AB 实验平台”

【产品设计】从0到1构建广告业务（TD）平台

广告业务系统之敏捷交付 —— “基于 Docker 容器同机部署”

广告业务系统之智能保险丝 —— “智能流控”

暨广告、推荐、搜索三大顶级复杂业务之 “广告业务系统详叙”

Facebook新财报：不惧“隐私门“事件影响，广告业务依然增长强劲

OpenInfra Days China 2022｜SelectDB与你共享 Apache Doris 在互联网广告业务中的实践

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)