【大数据】【Spark】 Structured Streaming基础

一 概述

多数的流式计算引擎(比如storm、spark streaming等)都仅仅关注流数据的计算方面:比如使用一个map函数对一个流中每条数据都进行转换,或者是用reduce函数对一批数据进行聚合。但是,实际上在大部分的流式计算应用中,远远不只是需要一个流式计算引擎那么简单。相反的,流式计算仅仅在流式应用中占据一个部分而已。因此现在出现了一个新的名词,叫做持续计算/应用,continuous application。
Spark 2.0中,引入了structured streaming,就是为了实现上述所说的continuous application,也就是持续计算的。首先,structured streaming是一种比spark更高阶的api,主要是基于spark的批处理中的高阶api,比如dataset/dataframe。此外,structured streaming也提供很多其他流式计算应用所无法提供的功能。

猜你喜欢

转载自blog.csdn.net/cheidou123/article/details/94221898
今日推荐