spark核心组件的核心

==>Spark Streaming 的核心:

Dstream这个数据结构有三块比较重要:

父依赖
生成RDD的时间间隔
一个生成RDD的function

Dstream的概念:

       Discretized Stream是Spark Streaming的基础抽象,代表持续性的数据流和经过各种Spark算子操作后的结果数据流。DStream是一系列连续的RDD来表示。

==>Spark Sql 的核心:

DataFrame:

       dataframe是dataset的行的集合,本质是一个分布式的二维表,表:表信息

DataSet:

       Dataset是分布式数据集合。

猜你喜欢

转载自blog.csdn.net/qq_39839745/article/details/84972413