Spark-RDD的特点

 RDD以及其特点
        1、RDD是Spark提供的核心抽象,全称为Resillient Distributed Dataset,即弹性 分布式数据集。
        一个RDD,在逻辑上,抽象地代表了一个HDFS文件。
        但是,它实际上是被分区得。分为多个分区。多个分区散落在Spark集群中,不同的节点上。
        比如说,RDD有90万数据。分为9个partition,9个分区。
        
        
        2、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同节点上,
        从而让RDD中的数据可以被并行操作。(分布式数据集)
        
        3、RDD通常通过Hadoop上的文件,即HDFS文件或者Hive表,来进行创建;有时也可以通过应用程序中的集合来创建。
        答:RDD是一种抽象式的数据集合,可分区,可并行
        
        4、RDD最重要的特性就是,提供了容错性,可以自动从节点失败中恢复过来。即如果某个节点上的RDD partition,
        因为节点故障,导致数据丢了,那么RDD会自动通过自己的数据来源重新计算该partition。这一切对使用者是透明的。
        5、RDD的数据默认情况下存放在内存中的,但是在内存资源不足时,Spark会自动将RDD数据写入磁盘。(弹性)
什么是Spark开发?
    1、核心开发:离线批处理 / 延迟性的交互式数据处理

猜你喜欢

转载自blog.csdn.net/weixin_41244495/article/details/81134981