Spark | RDD

RDD(resilient distribute Datasets) 弹性分布式数据集

主要从弹性、分布式 这都是在用户透明情况下存在的

分布式:一个RDD分布式存储在不同partition,从某种意义也就是不同节点

弹性:单个partiton,并不一定都是内存中,如果内存不够,会将部分写到磁盘

  1. 需要格外说的是RDD是具有容错性的,当节点故障导致数据丢失,RDD会自动通过数据来源重新计算

  2. 输入:HDFS Hive

  3. 输出:HDFS Hive Mysql……

  4. SaprkCore就是对RDD进行多种多样的算子操作(map reduce filter等),对RDD循环往复(这个往复是相对MR只能一次M R而言,可以对RDD进行多次操作)

  5. SparkSQL等组件都是围绕RDD这个数据结构

猜你喜欢

转载自blog.csdn.net/jh_zhai/article/details/80830508