RDD,Spark SQL,DF群组统计 - 代码天地

RDD,Spark SQL,DF群组统计

其他 2019-03-17 10:31:10 阅读次数: 0

RDD

#1  RDD性别统计
a=userrdd.map(lambda x:(x[2],1)).reduceByKey(lambda x,y:x+y).collect()
print(a)

#2 性别职业统计
a=userrdd.map(lambda x:((x[2],x[3]),1)).reduceByKey(lambda x,y:x+y).collect()
print(a)

Spark SQL

sqlContxt.sql('''
select gender,count(*) counts from user_table group by gender
''').show()


sqlContxt.sql('''
select gender,occupation,count(*) counts from user_table group by gender,occupation
''').show()

df统计

#df
user_df.select('gender').groupby('gender').count().show()

user_df.select('gender','occupation').groupby('gender','occupation')\
    .count().orderBy('gender','occupation').show(5)

猜你喜欢

转载自blog.csdn.net/weixin_40161254/article/details/87921394

RDD,Spark SQL,DF群组统计

RDD,Spark SQL,DF分组

RDD,Spark SQL,DF排序

【Spark RDD：词频统计】

spark rdd 和 DF 转换

Spark RDD文件词频统计

Spark RDD案例：词频统计

Spark编程方式RDD转DF

【Spark RDD：统计每日新增用户】

Spark RDD统计每日新增用户

spark教程(11)-RDD-DF-DS 汇总 Spark中RDD、DataFrame和DataSet的区别

spark rdd dataset sql udf udaf

spark sql之RDD转换DataSet（十一）

Spark SQL：RDD、DataFrames、DataSet之间的转换

Spark SQL-DataFrame，DataSet与RDD

Spark SQL及RDD、DataFrame、DataSet数据抽象

十、 RDD编程和Spark SQL

【Spark】(task6)Spark RDD完成统计逻辑

Spark编程基础3RDD编程、Spark SQL

Spark Streaming计算中，根据DF或RDD方便用SQL进行join，filter，aggregate等action

[总结]基于Java的Spark、DF、RDD常用代码

一零一二、Spark- RDD-DF-DS 相互转换

spark --IDEA开发Spark SQL（ sql查询 RDD、DF、DS之间相互转化 Spark SQL完成WordCount 多数据源交互）

spark -- RDD-API （创建RDD RDD的方法/算子分类 Transformation转换算子 Action动作算子统计操作）

Spark算子：统计RDD分区中的元素及数量

Spark算子：RDD分区中的元素和数量统计

Spark RDD案例：统计每日新增用户

11.spark sql之RDD转换DataSet

Spark-SQL之RDD转换为DataFrame

spark sql 之 RDD与DataFrame互相转化

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)