一 Spark与kafka基本特点

spark与kafka的介绍
一 spark是什么
hadoop MapReduce:从集群中读取数据,分片读取 进行一次处理,将结果写到集群,从集群中读取更新后的数据,进行下一次的处理,将结果写到集群
Spark :从集群中读取数据,把数据放入到内存种,完成所有必须的分析处理,将结果写回集群。数据挖掘要比hadoop快100倍
Spark的数据对象存储在分布于数据集群中的叫做弹性分布式数据集,
RDD(Resilient Distributed Dataset)这些数据对象既可以放在内存,也可以放在磁盘,所以RDD同样也可以提供完成的灾难恢复功能

二 spark能做什么
实时流计算,与Storm很相似
RDD ResultSet:一开始没有数据集,读取数据进行处理,把结果再写入mysql和集群中

三 kafka是什么
kafka是一中异步通信框架,底层采用Scala语言,通信框架采用AKK框架
SPark 与 kafka都是采用Scala语言写的。
kafka吞吐量非常高

Kafka可以消息回放:从新播放,可以消息持久化,但是RabbitMQ不能从新恢复消息,
 消息持久化
 非常简单方便的分布式
 分组读取消息(容灾,负载均衡读取数据)容灾,一个挂了,其它的来顶替它。
 每一组消费者只能有一个消费这些数据,各种之间又只有一组

kafka相对于其他的MQ有什么优点


spark与Kafka如何进行流计算
kafka实时接收数据,采用Spark并行计算能力,来做用户的行为分析。

Spark最好安装在hadoop当中

猜你喜欢

转载自blog.csdn.net/xsjzdrxsjzdr/article/details/85285938