StreamSets 定时调度 - 代码天地

StreamSets 定时调度

其他 2021-01-24 10:30:21 阅读次数: 0

目录

一、StreamSets简介

二、定时调度的案例

2.1总体管道流设计

2.2具体步骤

一、StreamSets简介

Streamsets是一款大数据实时采集和ETL工具，可以实现不写一行代码完成数据的采集和流转。通过拖拽式的可视化界面，实现数据管道(Pipelines)的设计和定时任务调度，Kettle缺点是通过定时运行，实时性相对较差。

需求：定时的开启一个管道流，此处希望也可以定时的关闭。目前找到的方式就是下面的这个组件，以下的案例也是基于此组件展开。

Cron Scheduler 使用的官方文档:点击前面

二、定时调度的案例

2.1总体管道流设计

2.2具体步骤

1.origins- corn scheduler

选择定时的组件，origins 在一个管道流中只能有一个，其他的组件可以在 process，destination和executor 中选取。

说明：此处选择每小时的执行是方便演示，这个可以随意的调整，expression表达式是使用 Java开发的调度框架Quartz中定义。

expression表达式的使用可以见http://www.quartz-scheduler.org/documentation/quartz-2.3.0/tutorials/crontrigger.html

2.process- JDBC Look Up

（1）JDBC 连接地址

（2）数据库用户和密码

（3）MySQL驱动，此处事先要将mysql驱动上传上来

3.Stream Selector

4.管道流分支一------数据落入本地磁盘

（1）Output Fies 选择文件输出类型、文件的前后缀、输入文件夹，输入文件的大小，文件形成的时间间隔，此处我认为应该跟 Flume 差不多吧，可以配置文件形成的滚动时间间隔和大小两个因素来控制。

（2）Data Format 数据类型此处选择JSON

5.管道流过滤分支二-----过滤出的数据入库

（1）选择 destinations中的 JDBC Producer，JDBC 连接，指定数据库名，选择插入数据

（2）数据库的用户名和密码，还有就是驱动

6.管道流过滤分支三--垃圾桶

没什么好说的，就是其他的数据不要了呗。

2.3 运行

1.点击Start 启动管道流

2.到达定时的时间点

没有到达管道流数据的流入时间，管道流静静的等待，时间一到数据涌入。

3.数据落入本地磁盘

管道流数据流入形成的是一个 tmp 的临时文件，文件的最终生成应该可以有文件大小和时间间隔控制。

数据流形成的文件，这个时候没有 tmp 标记

4.过滤出的数据写入新的表

我们可以看到Output2 中有7条数据流出二数据库中的数据记录条数也是 7条。

以上就是对 StreamSets 调度的简单示例，还在学习当中，不足之处肯定存在，仅供学习参考吧。

存在的问题：

网上看到数据库数据同步数据重复问题，这个使用 Executors 中的 Pipeline Finisher 执行一次，我也没有验证
管道流开启时间调度器也启动了，怎么结束，让每天这个时间点去执行呢？这个 Core Scheduler 的 expression 表达式应该可以解决

猜你喜欢

转载自blog.csdn.net/qq_35995514/article/details/107555915

StreamSets 定时调度

StreamSets

springboot 定时调度

定时调度平台

定时调度的实现

定时调度

ScheduledThreadPoolExecutor 定时调度

Quertz定时调度

线程定时调度

crontab定时调度

spring 定时调度

八、定时调度

定时调度 quartz

quartz定时调度实例

Spring的定时调度－－Quartz

crontab定时调度研究

linux定时调度任务

apscheduler定时调度任务

Springboot quartz定时调度

Python - 定时调度 - apscheduler

定时调度之Quartz

Quartz 定时调度框架

定时调度任务crontab

Python定时调度执行

StreamSets 简介

streamsets（1）

streamsets（2）

Streamsets简介

SpringBoot定时器定时调度

Spring的定时调度－－Quartz配置运行

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)