Spark Streaming核心概念二(DStreams)

一、DStreams

DStreams是最基础的抽象类在Spark Streaming,它代表持续不断的数据流,数据流要么来源于input 数据流,要么来源于一个DStreamsz进过转换后生成的另外一个DStreaming,实际上一个DStreams一系列的RDD.每一个RDD包含的数据是一个间隔内的数据(批次)


对Dstreams操作算子,比如map/flatMap,其实底层都会被翻译为对DStream中的每个RDD都做相同的操作,因为一个DStream是由不同批次的RDD构成的


二、Input DStreams and Receivers

Input DStreams是从源头接收过来的数据流,每一个input DStreams都需要关联一个Receiver对象(接收数据从数据源)将数据存储在Spark的内存中已供后续的处理,文件系统除外(不需要Receiver对象)

Spark Streaming提供两种

猜你喜欢

转载自blog.csdn.net/fengfengchen95/article/details/80456206