【Spark】SparkCore深入解析（一）

其他 2020-06-19 10:07:31 阅读次数: 0

在这里插入图片描述

（图片来源于网络，侵删）

【1】textFile() 与 sc.wholeTextFiles的区别

1）当指定的路径是目录且该目录下全部都是文件时，textFile() 和 wholeTextFiles() 都正常读取
2）当指定的路径是文件时，textFile() 和 wholeTextFiles() 都正常读取
3）当指定的路径是目录且该目录下既有文件也有目录时，textFile() 会报错， wholeTextFiles() 正常读取该目录下的所有文件

1）textFile读取文件的每一行作为列表List的一条记录，所以返回一个RDD[String]
2） wholeTextFiles() 读取是按照文件进行读取，返回一个RDD[(key, val)]，其中key是该文件的文件路径，value是这个文件的所有数据，所以我们对value进行数据解析（例如通过\r\n将数据进行按行切分），才能对文件数据进行操作

【2】textFile() 读取数据分区数量规则

如果不指定默认分区数量，则默认分区数量为2，则会根据 所有文件字节大小totalSize 除以分区数量partitons的值 goalSize，然后比较 goalSize 和 hdfs指定分块大小（这里是32M）作比较，以较小的最为goalSize作为切分大小，对每个文件进行切分，若文件大小大于goalSize，则会生成 totalSize / goalSize + 1个分区

未完待续…

都看到这里了，点赞评论一下吧！！！

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_43733123/article/details/106141874

【Spark】SparkCore深入解析（一）

Spark深入解析（六）：SparkCore之Spark代码编写WordCount

Spark深入解析（五）：SparkCore之RDD编程模型

Spark深入解析（四）：SparkCore之RDD概述

Spark深入解析（七）：SparkCore之IDEA编写WordCount

Spark深入解析（一）：Spark的前世今生

spark的SparkCore

Spark学习之路【SparkCore入门解析 ②RDD编程】

Spark学习之路【SparkCore入门解析 ①RDD概念】

深入解析spark RDD

【SparkCore】Spark监控

SparkCore基础解析（二）

深入解析Spark中的RPC

Spark学习之路（十六）SparkCore的源码解读（一）spark-submit提交脚本

Spark学习之路【SparkCore入门解析 ③累加器和广播变量】

Sparkcore高级应用一

SparkCore 笔记（一）

Spark学习之路（十五）SparkCore的源码解读（一）启动脚本

Spark学习之路（十五）SparkCore的源码解读（一）启动脚本[转]

深入剖析 Spark 内核（一）

Spark系列(六)SparkCore--RDD简介

【Spark篇】sparkCore初识-RDD相关

【SparkCore】转载 Spark详细内存管理

SparkCore-2-Spark几种提交方式

Spark深入解析（三）：Spark环境搭建（不同模式）

TCP深入解析（一）

Zookeeper深入解析（一）

深入解析HashTable一

SparkCore

spark记录（9）SparkCore的调优之Spark内存模型

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)