Streamsets简介

一、是什么?

Streamsets是由Informatica前首席产品官Girish Pancha和Cloudera前开发团队负责人Arvind Prabhakar于2014年创立的公司,总部设在旧金山。streamsets产品是一个做大数据ETL的工具,支持包括结构化和半/非结构化数据源,拖拽式的可视化数据流程设计界面。而Streamsets旗下有如下三个产品: streamsets data collector(核心产品,开源):大数据ETL工具;streamsets data collector Edge(开源):将这个组件安装在物联网等设备上,占用少的内存和CPU;streamsets control hub(收费项目):可以将collector编辑好的pipeline放入control hub进行管理,可实现定时调度、管理和pipeline拓扑;
所以之后的介绍都会在streamsets data collector这个核心开源产品

二、data collector简介

2.1 创建管道

简介带图,之后会单独出一期安装创建的博客,话不多说先上图
在这里插入图片描述
在管道的创建上分为了三个管道:
data collector pipeline:用户普通collector开发(后续主要介绍)。
data collector Edge Pipeline:将开发好的pipeline上传到对应Edge系统。
microservice pipeline:提供微服务。

2.2 streamsets data collector数据处理组件分类

当管道创建好后,会根据需要去选择对应的组件信息。而组件分类如下图
在这里插入图片描述
origins (extract):数据来源,数据从不同的数据源抽取。(一个pipeline中只能有一个数据来源)
processor(transform):数据转化,将抽取来的数据进行过滤,清洗。
destination(load):数据存储,将数据处理完后存入目标系统或者转入另一个pipeline进行再次处理。
executor:由处理数据组件的事件触发executor,执行相应任务。例如:某个组件处理失败,发送邮件通知。
注:后期会出一些组件介绍!

2.3 streamsets data collector 事件类型

pipeline 相关事件()pipeline-related events):当pipeline开启(start)或者停止(stop)时会产生事件,可以在pipeline的配置参数中指定consumer,进行事件处理。配置如图:
在这里插入图片描述
阶段组件相关事件(stage-related events):处理数据的组件会产生事件,指定对应的executor组件去处理事件。如图
在这里插入图片描述

2.4 pipeline启动参数设置

在pipeline设置界面中parameters:
在这里插入图片描述
组件中调用方式:

${jdbc_con}

三、常用参考

Streamsets问答社区:https://ask.streamsets.com/question
当遇到一些问题时可以去搜索是否有同样的人遇到,会提出自己新的问题
Streamsets使用手册:https://streamsets.com/documentation/datacollector/latest/help/
streamsets详细使用文档
Streamsets简单案例教程:https://github.com/streamsets/tutorials
一些简单的Streamsets使用教程
streamsets data collector源码地址:https://github.com/streamsets/datacollector

猜你喜欢

转载自blog.csdn.net/qq_39657909/article/details/107685907