本文主要目标是分析RDD的实例对象,到底放了什么。
从代码val textFile = sc.textFile(args(0)) 开始:
直接看textFile 源码:
你会发现调用的是hadoop的api,通过 hadoopFile 读取数据,返回一个hadoopRDD对象
扫描二维码关注公众号,回复:
4856523 查看本文章
hadoopRDD 返回的结果,其实就是
1 value1
2 value2
3 value3
通过map进行处理,转换为
需要的数据
value1
value2
value3
rdd,中的属性
id ,从0开始自增
name , 其实就是数据的路径
尚未写完,待更新。。。