Storm 简介及其框架概念

Storm框架


Apache Storm is a free and open source distributed realtime computation system
它是分布式实时计算处理系统
Storm makes it easy to reliably process unbounded streams of data

Storm是一个免费并开源的分布式实时计算系统。
利用Storm可以很容易做到可靠地处理无限的数据流,
像Hadoop批量处理大数据一样,Storm可以实时处理数据。
Storm简单,可以使用任何编程语言

unbounded streams of data
无边界的流数据

它提供相应简单的编程模型就可以实现实时数据计算处理功能

Storm is fast: a benchmark clocked it at over a million tuples processed per second per node. It is scalable, fault-tolerant, guarantees your data will be processed, and is easy to set up and operate.
它非常快速,秒级处理百万元组数据,它是一个可扩展、保证数据肯定会处理的框架

Storm的特点
编程简单:开发人员只需要关注应用逻辑,而且跟Hadoop类似,Storm提供的编程原语也很简单。
高性能,低延迟:可以应用于广告搜索引擎这种要求对广告主的操作进行实时响应的场景。
分布式:可以轻松应对数据量大,单机搞不定的场景
可扩展: 随着业务发展,数据量和计算量越来越大,系统可水平扩展
容错:单个节点挂了不影响应用
消息不丢失:保证消息处理

总结:
1、它分布式实时计算框架
2、处理数据非常快速,秒级百万元数组的处理效率
3、数据具有可靠性
4、它具有可扩展、可容错的框架

5.它是一个真正的实时流处理框架


Storm对比Hadoop
1.Hadoop上运行的是MapReduce jobs,而在Storm上运行的是topology
2.Hadoop使用磁盘作为中间交换的介质,而storm的数据是一直在内存中流转
3.hadoop的数据源是HDFS上某文件夹下已经存在的TB级的大数据,待处理的数据是相对不变的;而Storm的数据源是实时新增的B或KB级的小数据,处理的数据是支持增加的。
4.一个MapReduce job数据处理完后会自动结束, 而一个topology数据处理完后会一直等待下一个数据的到来,不会自动停止(除非你手动强制停止)。
5.hadoop擅长批处理、吞吐量大、做全量数据的离线分析,Storm的优势是数据的实时分析,以实时性高被广泛应用,单位时间内的吞吐量要小于Hadoop。
6.Hadoop下的Map/Reduce计算框架对于数据的处理
7.Storm是一个流式计算框架,对于数据的处理流程是:Storm将数据以Stream的方式,并按照Topology的顺序,依次处理并最终生成结果


Storm对比Spark Streaming

Storm应用案例
一淘:实时分析系统
携程:网站性能监控
阿里妈妈:用户画像
基于Storm的诈骗电话分析系统的设计与实现

猜你喜欢

转载自www.cnblogs.com/Transkai/p/10884013.html