RDD编程基础-RDD操作 - 代码天地

RDD编程基础-RDD操作

其他 2020-02-16 22:50:48 阅读次数: 0

scala> val rdd1 = sc.textFile("file:///Users/***/spark/test_data/word.txt")
scala> rdd1.filter(x=>x.contains("huahua")) foreach println
huahua hadoop spark
huahua hadoop

也可以预先定义func：
scala> val func:String=>Boolean = {x:String=>x.contains("huahua")}
scala> rdd1.filter(func) foreach println
huahua hadoop spark
huahua hadoop

综合练习 WordCount：

// flatMap，map，reduceByKey
scala> rdd1.flatMap(_.split(" ")).map((_,1)).reduceByKey((x,y)=>x+y).foreach(println) //reduceByKey中的func仅仅作用于 PairRDD的value,reduceByKey((x,y)=>x+y)可写成reduceByKey(_+_)
(mapreduce,2)
(huahua,2)
(spark,5)
(hadoop,5)
(spark2.2,1)
(spark2.4,2)
(kylin,1)
(hbase,4)


// flatMap，map，groupByKey
scala> rdd1.flatMap(_.split(" ")).map((_,1)).groupByKey().map(t=>(t._1,t._2.sum)) foreach println //groupByKey之后得到的是org.apache.spark.rdd.RDD[(String, Iterable[Int])]，每个元素为一个tuple，map函数作用于每个tuple
(mapreduce,2)
(huahua,2)
(spark,5)
(hadoop,5)
(spark2.2,1)
(spark2.4,2)
(kylin,1)

猜你喜欢

转载自www.cnblogs.com/wooluwalker/p/12319144.html

RDD编程基础-RDD操作

Spark基础 | RDD编程

Spark基础-RDD编程

Spark RDD基础操作

RDD编程--创建RDD

spark Pair RDD 基础操作

RDD编程

RDD操作

RDD基础

RDD编程-RDD算子的使用

Spark编程基础_RDD初级编程

RDD和RDD之间的操作

rdd

Spark核心编程-RDD操作原理分析

Spark核心编程-RDD行动操作

Spark核心编程-RDD转换操作

Spark核心编程-RDD创建操作

Spark核心编程-RDD控制操作

Spark编程--键值对RDD转换操作

spark学习笔记[一] —— RDD编程基础

Spark RDD编程基础（Scala版）

Spark学习笔记（二）：RDD编程基础

RDD操作创建RDD，转换操作

spark RDD官网RDD编程指南

SparkCore之RDD编程模型与RDD的创建

RDD编程-RDD算子的使用（二）

Spark_RDD之RDD操作简介

SPARK RDD编程指南

Spark四 RDD编程

（二）Spark RDD编程

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)