3.4 Spark RDD Action操作5-saveAsTextFile、saveAsSequenceFile、saveAsObjectFile - 代码天地

3.4 Spark RDD Action操作5-saveAsTextFile、saveAsSequenceFile、saveAsObjectFile

其他 2019-03-17 04:50:58 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/yyl424525/article/details/78384627

1 saveAsTextFile
def saveAsTextFile(path: String): Unit
def saveAsTextFile(path: String, codec: Class[_ <: CompressionCodec]): Unit
saveAsTextFile用于将RDD以文本文件的格式存储到文件系统中。
codec参数可以指定压缩的类名。
例子：
var rdd1 = sc.makeRDD(1 to 10,2)
scala> rdd1.saveAsTextFile(“hdfs://cdh5/tmp/lxw1234.com/”) //保存到HDFS
hadoop fs -ls /tmp/lxw1234.com
Found 2 items
-rw-r–r– 2 lxw1234 supergroup 0 2015-07-10 09:15 /tmp/lxw1234.com/_SUCCESS
-rw-r–r– 2 lxw1234 supergroup 21 2015-07-10 09:15 /tmp/lxw1234.com/part-00000

hadoop fs -cat /tmp/lxw1234.com/part-00000
1
2
3
4
5
6
7
8
9
10

注意：如果使用rdd1.saveAsTextFile(“file:///tmp/lxw1234.com”)将文件保存到本地文件系统，那么只会保存在Executor所在机器的本地目录。

指定压缩格式保存：
rdd1.saveAsTextFile(“hdfs://cdh5/tmp/lxw1234.com/”,classOf[com.hadoop.compression.lzo.LzopCodec])

hadoop fs -ls /tmp/lxw1234.com
-rw-r–r– 2 lxw1234 supergroup 0 2015-07-10 09:20 /tmp/lxw1234.com/_SUCCESS
-rw-r–r– 2 lxw1234 supergroup 71 2015-07-10 09:20 /tmp/lxw1234.com/part-00000.lzo

hadoop fs -text /tmp/lxw1234.com/part-00000.lzo
1
2
3
4
5
6
7
8
9
10

2 saveAsSequenceFile
saveAsSequenceFile用于将RDD以SequenceFile的文件格式保存到HDFS上。
用法同saveAsTextFile。

3 saveAsObjectFile
def saveAsObjectFile(path: String): Unit
saveAsObjectFile用于将RDD中的元素序列化成对象，存储到文件中。
对于HDFS，默认采用SequenceFile保存。
例子：
var rdd1 = sc.makeRDD(1 to 10,2)
rdd1.saveAsObjectFile(“hdfs://cdh5/tmp/lxw1234.com/”)

hadoop fs -cat /tmp/lxw1234.com/part-00000
SEQ !org.apache.hadoop.io.NullWritable”org.apache.hadoop.io.BytesWritableT

猜你喜欢

转载自blog.csdn.net/yyl424525/article/details/78384627

3.4 Spark RDD Action操作5-saveAsTextFile、saveAsSequenceFile、saveAsObjectFile

3.4 Spark RDD Action操作7-saveAsNewAPIHadoopFile、saveAsNewAPIHadoopDataset

3.4 Spark RDD Action操作6-saveAsHadoopFile、saveAsHadoopDataset

3.4 Spark RDD Action操作2-take、top、takeOrdered

3.4 Spark RDD Action操作4-countByKey、foreach、foreachPartition、sortBy

3.4 Spark RDD Action操作3-聚合-aggregate、fold、reduce

3.4 Spark RDD Action操作1-first、count、lookup、collect

Spark RDD Action操作

【spark】RDD操作

Spark 键值对RDD操作

Spark RDD操作总结

Spark——RDD操作详解

Spark RDD操作

[Spark] RDD的基本操作

Spark RDD的Transformation操作

【SPARK】- RDD操作

Spark RDD基础操作

Spark RDD创建操作

Spark RDD简单操作

spark 之RDD操作

Spark（二）————RDD变换和RDD Action

Spark_RDD之RDD操作简介

Spark Core:RDD编程Action

Spark RDD算子之Action保存操作

spark Pair RDD 基础操作

Spark学习——RDD基本操作

Spark Pair RDD 基本操作

Spark RDD API 基本操作

Spark 杂记--- 键值对操作RDD

Learning Spark——RDD常用操作

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)