Spark打印每个split及其对应文件 - 代码天地

Spark打印每个split及其对应文件

其他 2018-05-06 21:51:50 阅读次数: 3

import org.apache.hadoop.io.LongWritable
import org.apache.hadoop.io.Text
import org.apache.hadoop.mapred.{FileSplit, TextInputFormat}
import org.apache.spark.rdd.HadoopRDD
import org.apache.hadoop.mapred.InputSplit  

var rdd=sc.hadoopFile("hdfs://namenode:9000/home/hdp-ads-audit/dubhe_data/hive//tmp/test", classOf[TextInputFormat], classOf[LongWritable], classOf[Text], sc.defaultMinPartitions)
val hadoopRdd = rdd.asInstanceOf[HadoopRDD[LongWritable, Text]]


hadoopRdd.mapPartitionsWithInputSplit((inputSplit:InputSplit,iterator:Iterator[(LongWritable, Text)]) =>{  
val file = inputSplit.asInstanceOf[FileSplit]  
var fileSet:Set[String] = Set()
fileSet += file.getPath.toString()
Seq("split,file:"+fileSet.mkString(";")).iterator
}  
).collect().foreach(println)

打印内容如下：

split,file:hdfs://namenode:9000/home/hdp-ads-audit/dubhe_data/hive//tmp/test/dt=2017-03-15/000000_0
split,file:hdfs://namenode:9000/home/hdp-ads-audit/dubhe_data/hive//tmp/test/dt=2017-03-15/000001_0
split,file:hdfs://namenode:9000/home/hdp-ads-audit/dubhe_data/hive//tmp/test/dt=2017-03-15/000002_0
split,file:hdfs://namenode:9000/home/hdp-ads-audit/dubhe_data/hive//tmp/test/dt=2017-03-15/000003_0
split,file:hdfs://namenode:9000/home/hdp-ads-audit/dubhe_data/hive//tmp/test/dt=2017-03-15/000004_0
split,file:hdfs://namenode:9000/home/hdp-ads-audit/dubhe_data/hive//tmp/test/dt=2017-03-15/000005_0
split,file:hdfs://namenode:9000/home/hdp-ads-audit/dubhe_data/hive//tmp/test/dt=2017-03-15/000006_0
split,file:hdfs://namenode:9000/home/hdp-ads-audit/dubhe_data/hive//tmp/test/dt=2017-03-15/000007_0
split,file:hdfs://namenode:9000/home/hdp-ads-audit/dubhe_data/hive//tmp/test/dt=2017-03-15/000008_0
split,file:hdfs://namenode:9000/home/hdp-ads-audit/dubhe_data/hive//tmp/test/dt=2017-03-15/000009_0

猜你喜欢

转载自blog.csdn.net/wisgood/article/details/78153839

Spark打印每个split及其对应文件

vue每个文件夹对应的内容

打印Java对应中每个类的属性和它对应的值

hadoop MapReduce —— 输出每个单词所对应的文件

【原创】大数据基础之Spark（7）spark读取文件split过程（即RDD分区数量）

C/C++常用函数及其对应头文件

国际化的程序实现及其原理每个国家对应的语言Locale和国家代码对照表

PyTorch之—图像分类一（每个类对应一个文件夹）

批量从json文件中提取每个目标，并生成对应的mask图像

split函数及其特殊用法

bash中打印文件每一行及其行号

hadoop怎么分割写入的文件为多个块的，一个map对应一个split分片吗？split与block的关系

asp函数split()对应php函数explode()

split 分割文件

Linux - 文件的分割(split)

Linux文件拆分（split）

split - 分割文件

split - 拆分文件

split分割（拆分）文件

查询程序，统计文件每个单词出现几次，对应的出现在哪一行

vue 每个如何改变对应title

深入浅出linux系统umask值及其对应的文件权限讲解

SPARK及其工作原理

Blas 函数及其对应操作

Spark(Scala) 在 split时遇到的坑

随机生成 50个数字（整数），每个数字的范围是[10,50]，统计每个数字出现的次数以及出现次数最多的数字与它的个数，最后将每个数字及其出现次数打印出来，如果某个数字出现次数为0，则不要打印它。打印时按照数字的升序排列

如何打印文字对应的索引

8.2 习题编写一个程序，在遇到EOF之前，把输入作为字符流读取，程序需要打印每个输入的字符及其相应的ASCLL十进制..........

hive spark版本对应关系

spark与scala的对应版本查看

今日推荐

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

Spring Boot 3.0：未来企业应用开发的基石

Java 的 AI 前景光明

国内首个智能体生态大会！2024百度万象大会定档5月30日

开源一周年，青语言新版发布

深入浅出：大型语言模型（LLM）的全面解读

顶会ICLR2024论文Time-LLM：基于大语言模型的时间序列预测

周排行

学习笔记(01):Python入门教程-计算机如何区分数字和字符

命令行提示符_颜色

五步轻松搞定Linux下的文件同步(备份)

Visio 2010，如何打开多个窗口

西安新起点|MBA考研十大热门城市

BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation

【蓝桥杯】ADV-73 数组输出

[DeeplearningAI笔记]卷积神经网络4.11一维和三维卷积

Java 逻辑运算符

Python爬虫入门——2. 5 利用正则表达式爬取豆瓣电影 Top 250

每日归档

更多

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)

2024-05-23(9)