CDH部署StreamSets

StreamSets是一个大数据采集工具,数据源支持包括结构化和半/非结构化,目标源支持HDFS,HBase,Hive,Kudu,Cloudera Search, ElasticSearch等。它包括一个拖拽式的可视化数据流程设计界面,定时任务调度等功能。举例,它可以将数据源从Kafka+Spark Streaming连接到你的Hadoop集群,而不需要写一行代码。

StreamSets并没有集成在cdh中,因此需要我们自己去官方下载软件包

下载地址: https://archives.streamsets.com/index.html

下载下来的文件如下,软件包有4.6G左右,需要点耐心

配置本地yum源

新建一个目录,把STREAMSETS_DATACOLLECTOR-3.10.0-el7.parcel, manifest.json放目录里

mkdir /var/www/html/streamsets
mv STREAMSETS_DATACOLLECTOR-3.10.0-el7.parcel /var/www/html/streamsets
mv manifest.json /var/www/html/streamsets
cd /var/www/html/streamsets
createrepo .

配置yum

[root@cm ~]# cat /etc/yum.repos.d/ss.repo 
[ssrepo]
name = ss_repo
baseurl = http://10.1.1.120/streamsets
enable = true
gpgcheck = false

把ss.repo拷贝到集群其他节点,然后执行 yum. repolist,可以看到配置的yum 源

下载分发激活Parcel包

主机---Parcel---配置

点击下载--分配--激活,这时间会比较长

添加服务

选择StreamSets

分配角色

数据目录

猜你喜欢

转载自www.cnblogs.com/sellsa/p/11300033.html