大数据学习day19-----spark02-------

1. RDD的使用

1.1  什么是RDD

  RDD(Resilient Distributed Dataset)是一个抽象数据集,RDD中不保存要计算的数据集,保存的是元数据,即数据的描述信息和运算逻辑,比如数据要从哪里去读取,怎么运算等。RDD可以理解为一个代理,你对RDD进行操作,相当于在Driver端先是记录下计算的描述信息,然后生成Task,将Task调度到Executor端才执行真正的计算逻辑

1.2 RDD的特点

猜你喜欢

转载自www.cnblogs.com/jj1106/p/11965439.html