大数据Flume+kafka+zookeeper+Strom/Spark/Fink......

1.Flume框架:

例如:你正在下一部电影,电影下载到了C盘,现在想下电影的同时,实时存在D盘,可以用Flume.

Flume:实时抽取的功能

2.kafka:消息的转发和推送

工作原理:类似于微信公众号,例如十个人关注了某一公众号,当这个公众号有一条信息更新的时候,会把这条信息同时推送给这10个关注公众号的人.

3.zookeeper:服务框架.帮助kafka的

kafka集群跑起来时是依赖于kafka框架的

4.Strom/Spark/Fink:数据实时处理框架

如:我来一次通话记录,我实时汇总统计一次数据;

如:双11屏幕实时滚动交易额

4.1)离线处理框架:缓存于HBase

HBase:非关系型数据库,也是依赖于zookeeper

HDFS:存储数据的.类似于百度网盘,可以用多台机器存储一个文件

由于数据量过大,HBase配合HDFS分布式把这些数据存储在多台机器上

5.MapReduce:数据的离线运算框架;离线分析数据(中小企业主流)

Hive:使用sql语句帮你翻译成java代码,执行MapReduce操作

6.Yarn:资源调度框架,用来给需要运算的机器分配资源

7.Yarn分析完,传给关系型数据库RDBMS;(数据已分析完毕)

为啥要存入关系型数据库?

方便外部展示

8.使用ssm框架将分析的结果导出来

展示于两个方向:

1).web前端:俗称H5开发

  1>.JQuery+Ajax:实时展示

  2>.ECharts/HighCharts框架:图表展示

2).手机端:android+ios

  1>.ios用Charts;android用AChartEngine展示

  2>Canvas

  3>PhoneGap:画布去画

9.Sqoop:用于数据转储

  

 

猜你喜欢

转载自www.cnblogs.com/curedfisher/p/12334850.html