Spark collect和take函数学习(RDD-->Array) - 代码天地

Spark collect和take函数学习(RDD-->Array)

编程语言 2018-05-10 11:16:38 阅读次数: 1

将RDD转成Scala数组，并返回。

函数原型

def collect(): Array[T]  
def collect[U: ClassTag](f: PartialFunction[T, U]): RDD[U]

实例

scala> val one: PartialFunction[Int, String] = { case 1 => "one"; case _ => "other"}  
one: PartialFunction[Int,String] = <function1>  
  
scala> val data = sc.parallelize(List(2,3,1))  
data: org.apache.spark.rdd.RDD[Int] =   
　　　　ParallelCollectionRDD[11] at parallelize at <console>:12  
  
scala> data.collect(one).collect  
res4: Array[String] = Array(other, other, one)

注意

如果数据量比较大的时候，尽量不要使用collect函数，因为这可能导致Driver端内存溢出问题。

建议使用 take(x:Int): rdd.take(100).foreach(println)
而不使用 rdd.collect().foreach(println)。

take获取RDD的前几个值

因为后者会导致内存溢出！！

猜你喜欢

转载自forlan.iteye.com/blog/2371501

Spark collect和take函数学习(RDD-->Array)

Spark RDD collect与collectPartitions

Spark RDD--数据类型转换

Spark parallelize函数和makeRDD函数的区别(Array-->RDD)

[Spark学习] Spark RDD详解

Spark RDD学习: aggregate函数

Spark RDD :Spark API--Spark RDD

Spark RDD

[Spark]-RDD

Spark | RDD

spark==RDD

spark --RDD

spark的RDD

【Spark】RDD

spark学习之RDD

Spark学习——RDD

Spark RDD学习笔记

Spark学习（3）RDD

Spark学习---RDD

spark学习 —— RDD入门

Spark基础学习——RDD

Spark基础和RDD

Spark学习——初识spark

Spark学习---Spark概述

【Spark】Spark二：Spark RDD初步

spark RDD和RDD算子

Spark学习（三）Spark之RDD

Spark学习二——Spark之RDD

Spark（三）Spark RDD编程

Spark学习（三）---RDD原理和API

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)