StreamSets(StreamSets Data Collector)是一款开源的强大的实时数据采集和ETL工具,数据源支持包括结构化和半/非结构化,目标源支持HDFS,HBase,Hive,Kudu,Cloudera Search, ElasticSearch等。它包括一个拖拽式的可视化数据流程设计界面,定时任务调度等功能。StreamSets有多种安装方式,可以使用tar包、rpm包、Cloudera Parcels等方式进行安装。由于小编所使用的集群为CDH,故本文就只对其如何集成到CDH中进行叙述~
目录
一、下载StreamSets相关安装包
由于CDH中并没有集成StreamSets,所以安装之前需要我们自己到相应网站下载安装包,下载请点这里~
小编这里下载的是最新的版本3.16.0的,一起来看一下这几个包:
parcel包:STREAMSETS_DATACOLLECTOR-3.12.0-el7.parcel
校验文件:STREAMSETS_DATACOLLECTOR-3.12.0-el7.parcel.sha
csd文件:STREAMSETS-3.12.0.jar
其中parcel包有五个多G,下载过程可能比较痛苦,请耐心等待~
二、上传下载的包到指定路径
1、将csd文件上传到/opt/cloudera/csd目录下,并更改所有者和权限:
chown cloudera-scm:cloudera-scm STREAMSETS-3.16.0.jar && chmod 644 STREAMSETS-3.16.0.jar
2、将parcel包和校验文件上传至CDH管理节点上的parcel本地存储库目录下并更改所有者和权限:
3、重启cloudera-scm-server服务
systemctl cloudera-scm-server restart
三、安装StreamSets
1、监控界面查看配置好的StreamSets安装包(默认应该是“未分配/未激活”的状态,因为小编这里已经安装,所以显示的是“已分配/已激活”),这里分配激活一下即可。
2、分配激活后,开始安装。选择“操作”-->“添加服务”
3、找到StreamSets,选中点击“继续”
4、选择一个主机,点击“继续”,其余界面可以选择默认,等待完成安装即可。
5、监控界面可以看到已经安装完成的StreamSets
6、点击监控界面的StreamSets,进入相关页面,点击下图所示按钮打开StreamSets
7、首次启动可能需要注册,默认密码是admin/admin
好了,到此,咱们的CDH集群安装StreamSets也就讲解完了,你们在此过程中遇到了什么问题,欢迎留言,让我看看你们遇到了什么问题~