容器化大数据

搞容器并且想做数据处理和分析的同学有福了,这里有一个基于Spark的项目,可以让我们不写spark代码,用最简单的配置,迅速跑起来流式streaming或离线处理spark程序,大家可以玩一玩。它有丰富的数据输入,输出插件,比如kafka, elasticsearch, mongodb, mysql, hdfs, hive,clickhouse,还可以直接用sql做数据处理。如果觉得功能不够还可以开发自己的插件,挺方便的。

项目地址:https://github.com/InterestingLab/waterdrop

这里有一个基于Spark的项目,可以让我们不写spark代码,用最简单的配置,迅速跑起来流式streaming或离线处理spark程序,大家可以玩一玩。它有丰富的数据输入,输出插件,比如kafka, elasticsearch, mongodb, mysql, hdfs, hive,clickhouse,还可以直接用sql做数据处理。如果觉得功能不够还可以开发自己的插件,挺方便的。目前有微博,新浪,永辉超市等多家公司在线上使用。
项目地址:https://github.com/InterestingLab/waterdrop
文档地址:https://interestinglab.github.io/waterdrop/

猜你喜欢

转载自blog.csdn.net/xsjzdrxsjzdr/article/details/84981904