Streamsets组件详解

一、Origin类组件详解

Amazon S3
Amazon SQS Consumer
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
Azure IoT/Event Hub Consumer
CoAP Server
Cron Scheduler // 任务调度组件,用于调度数据流
Directory // 文件目录组件,用于从文件目录下读取数据
Elasticsearch // ES源组件,用于从ES中读取数据
File Tail // 文件源插件,用于从文件尾源将读取数据行
Google BigQuery
Google Cloud Storage
Google Pub/Sub Subscriber
Groovy Scripting // Groovy脚本组件,自定义groovy脚本,功能强大
gRPC Client // Google RPC客户端组件,用于从gRPC服务器获取数据
Hadoop FS // hadoop 文件系统组件,用于从HDFS中读取数据,可用集群模式下读取数据
Hadoop FS Standalone // hadoop 文件系统组件,用于从HDFS中读取数据
HTTP Client // Http客户端组件,用于从Http服务器获取数据
HTTP Server // Http服务器组件,用于接收HTTP客户端的数据
JavaScript Scripting // JavaScript脚本组件,自定义JavaScript脚本,功能强大
JDBC Multitable Consumer // JDBC多线程数据源组件,用于以JDBC方式读取数据,适用于可通过JDBC方式连接的数据库(例如:mysql、oracle等),该组件可用于多线程模式
JDBC Query Consumer // JDBC数据源组件,用于以JDBC方式读取数据,适用于可通过JDBC方式连接的数据库(例如:mysql、oracle等)
JMS Consumer // JMS数据源组件,用于从JMS服务中消费数据
Jython Scripting // Jython脚本组件,自定义Jython脚本,功能强大
Kafka Consumer // Kafka数据源组件,用于从Kafka中消费数据
Kafka Multitopic Consumer // // Kafka多Topic数据源组件,用于从Kafka中消费数据,可用于指定多个topic进行消费,多线程消费
Kinesis Consumer // Kinesis数据源组件,用于从Kinesis中消费数据
MapR DB CDC
MapR DB JSON
MapR FS
MapR FS Standalone
MapR Multitopic Streams Consumer
MapR Streams Consumer
MongoDB // MongoDB数据源组件,用于从MongoDB中读取数据
MongoDB Oplog // MongoDB Oplog数据源组件,用于从MongoDB Oplog中读取数据
MQTT Subscriber // MQTT数据源组件,用于从MQTT中消费数据
MySQL Binary Log // MySQL Binary Log数据源组件,用于从MySQL Binary Log中读取数据
NiFi HTTP Server // NiFi HTTP 服务数据源组件,用于接收NiFi HTTP Client 发送的数据
Omniture
OPC UA Client
Oracle Bulkload // Oracle 批量加载插件,用于从多个Oracle表读取所有可用数据,可用于多线程
Oracle CDC Client
PostgreSQL CDC Client
Pulsar Consumer // Pulsar数据源组件,用于从Pulsar中消费数据
RabbitMQ Consumer //RabbitMQ数据源组件,用于从RabbitMQ中消费数据
Redis Consumer // Redis数据源组件,用于从Redis中读取数据
REST Service // REST 服务组件,用于微服务工作流设置,接收HTTP 请求
Salesforce
SDC RPC
SFTP/FTP/FTPS Client // FTP 客户端组件,用于从FTP服务中获取数据
SQL Server 2019 BDC Multitable Consumer
SQL Server CDC Client
SQL Server Change Tracking
Start Pipeline // 数据流启动组件,用于启动数据流
System Metrics // 系统指标源组件,用于从linux系统上获取CPU、内存等指标信息
TCP Server // TCP 服务组件,用于接收TCP Client发送的数据
Teradata Consumer
UDP Multithreaded Source //UDP多线程服务组件,用于接收UDP Client发送的数据
UDP Source // UDP 服务组件,用于接收UDP Client发送的数据
WebSocket Client // WebSocket客户端组件,用于从WebSocket服务获取数据
WebSocket Server // WebSocket服务组件,用于接收WebSocket Client发送的数据
Windows Event Log // Windows 事件日志组件,用于从Windows系统中获取事件日志,该组件尽可用于Edge数据流

二、Processor类组件详解

Base64 Field Decoder // base64 解码组件
Base64 Field Encoder // base64 编码组件
Control Hub API // Control Hub 接口调用组件
Couchbase Lookup // Couchbase查询组件,用于从Couchbase系统中读取数据
Data Generator // 数据序列化组件,将Avro、json、protobuf、text、xml等格式的数据序列成bytearray或string
Data Parser // 数据反序列化组件,将bytearray或string数据反序列成Avro、json、protobuf、text、xml等格式的数据
Databricks ML Evaluator // Databricks机器学习组件,使用Databricks机器模型进行数据分析
Delay // 延迟处理组件,用于数据延时处理
Encrypt and Decrypt Fields // 加解密组件,支持多种加解密算法
Expression Evaluator // 表达式组件,可用该组件添加或修改记录标题属性和字段属性
Field Flattener // 数据平铺组件,可以展平整个记录以生成没有嵌套字段的记录
Field Hasher // 哈希组件,可用于计算数据的哈希值,支持多种哈希算法
Field Mapper // 数据映射组件,可用于将表达式映射到一组字段,以更改字段路径,字段名称或字段值
Field Masker // 数据打码组件,可用于将敏感的数据进行打码
Field Merger // 数据合并组件,将List或Map类型的记录中的一个或多个字段合并到记录中的其他路径
Field Order // 数据排序组件,将List或Map类型的记录中的字段进行排序
Field Pivoter // 数据移位组件
Field Remover // 字段删除组件,用于保留或删除记录中的某些字段
Field Renamer // 重命名组件,用于重命名记录中字段的key
Field Replacer // 数据替换组件,用于填充或替换记录中的缺失值
Field Splitter // 字段切割组件,用于将数据按某一分隔符进行切割
Field Type Converter // 类型转化组件,用于数据的类型转化
Field Zip // 拉锁组件,用于将两个数组进行关联
Geo IP // Ip解析组件,用于将ip解析成对应的经纬度、地理信息等数据信息
Groovy Evaluator // Groovy脚本组件,用于自定义Groovy脚本,根据需求编写一些代码实现一个数据处理任务,功能强大
HBase Lookup // HBase 数据查询组件,用于从HBASE查询数据
Hive Metadata // Hive 元数据组件,与Hive Metastore目标以及Hadoop FS或MapR FS目标配合使用,作为Hive漂移同步解决方案的一部分
HTTP Client // Http 客户端组件,用于从http服务中获取获取数据
HTTP Router // Http 路由组件,根据http 请求方式(post put get)和请求路径进行分支路由
JavaScript Evaluator // JavaScript脚本组件,用于自定义JavaScript脚本,根据需求编写一些代码实现一个数据处理任务,功能强大
JDBC Lookup // JDBC 数据查询组件,用于JDBC从数据库中查询数据,适用于通过JDBC方式连接的数据库(Mysql等)的查询
JDBC Tee // JDBC Tee 组件,使用JDBC连接将数据写入MySQL或PostgreSQL数据库表,然后将生成的数据库列值传递给字段。使用JDBC Tee处理器将部分或全部记录字段写入数据库表,然后用其他数据丰富记录
JSON Generator // JSON 序列化组件,用于将数据记录序列化成JSON字符串
JSON Parser // JSON 反序列化组件,用于将JSON字符串数据反序列化成Java对象数据
Jython Evaluator // Jython脚本组件,用于自定义Jython脚本,根据需求编写一些代码实现一个数据处理任务,功能强大
Kudu Lookup // Kudu 查询组件,用于从Kudu 系统中读取数据
Log Parser // 日志解析组件,支持多种日志格式的的解析,用于将具有一定格式的日志数据,解析成系统平台可处理的结构化格式数据
MLeap Evaluator // MLeap 数据分析组件,使用存储在MLeap捆绑软件中的机器学习模型来生成评估,评分或数据分类
MongoDB Lookup // MongoDB 数据查询组件,用于从MongoDB中查询数据
PMML Evaluator // PMML数据分析组件,使用以预测模型标记语言(PMML)格式存储的机器学习模型来生成数据的预测或分类
PostgreSQL Metadata //PostgreSQL元数据组件,确定其中每个记录应写入PostgreSQL的表,记录结构对表结构进行比较,然后根据需要创建或改变的表
Record Deduplicator // 记录重复数据删除组件,评估记录中是否有重复数据,并将数据路由到两个流中-一个流用于唯一记录,一个流用于重复记录。使用记录重复数据删除器丢弃重复数据或通过不同的处理逻辑路由重复数据
Redis Lookup // Redis数据查询组件,用于从Redis中查询数据
Salesforce Lookup // Salesforce数据查询组件,用于从Salesforce中查询数据
Schema Generator // Schema 生成组件,基于记录的结构生成模式,并将该模式​​写入记录头属性。用于生成Avro Schema
Spark Evaluator // spark 数据处理组件,用于将平台与spark关联实现数据处理的分布式处理
SQL Parser // SQL 解析组件
Start Job // 作业启动组件,需要与Controler Hub 配合使用
Start Pipeline // 数据流启动组件,用于启动指定的数据流
Static Lookup // 静态数据查询组件,执行存储在本地内存中的键/值对的查找,并将查找值传递给字段。使用静态查找将字符串值存储在内存中,管道可以在运行时查找这些值,以用其他数据丰富记录
Stream Selector // 数据分选组件,用于通过设置条件,来将数据分选不同分支进行处理
TensorFlow Evaluator // TensorFlow 数据分析组件,通过TensorFlow训练的数据模型,并模型配置到指定目录下,在系统平台上使用,实现数据分析功能
Whole File Transformer // 全文件转换组件,用于全文件目录或文件的快速拷贝或转换
Windowing Aggregator // 窗口聚合组件,用于指定一定窗口大小实现窗口内部数据的聚合操作,支持滚动和滑动窗口
XML Flattener // XML 平铺组件,用于XML数据的展平,可以展平整个记录以生成没有嵌套字段的记录
XML Parser // XML 解析组件,用于将XML数据进行解析,转换成系统平台易处理的数据格式,类似JSON Parser

三、Destination类组件详解

Aerospike // Aerospike数据输出组件,将数据写到Aerospike(分布式KV库) 库中
Amazon S3 // S3数据输出组件,将数据写到S3上
Cassandra // Cassandra数据输出组件,将数据写到Cassandra库中
CoAP Client // CoAP 客户端,使用CoAP客户端将数据写到支持CoAP协议的服务端
Couchbase // Couchbase数据输出组件,将数据写到Couchbase库中
Databricks Delta Lake // Databricks 数据湖数据输出组件
Elasticsearch // ES数据组件
Einstein Analytics // 将数据输出上传到Einstein Analytics
Flume // 将数据输出到flume数据源中
Google BigQuery
Google Bigtable
Google Cloud Storage
Google Pub/Sub Publisher
GPSS Producer
Hadoop FS // 将数据输出存储到HDFS上
HBase //将数据输出存储到HBase上
Hive Metastore // Hive元数据处理器和Hadoop FS或MapR FS目标一起使用,作为Hive漂移同步解决方案的一部分
Hive Streaming // 将数据写到Hive中使用ORC (Optimized Row Columnar)数据格式
HTTP Client // HTTP 客户端,将数据写入到支持HTTP协议的数据服务端
InfluxDB // 将数据写入到InfluxDB(时序数据库)
JDBC Producer // 以JDBC的方式写入到支持JDBC连接的数据库中
JMS Producer //将数据写入到JMS消息队列中
Kafka Producer // 将数据写入到Kafka指定的消息队列中
Kinesis Firehose
Kinesis Producer
KineticaDB
Kudu // 将数据输出到Kudu
Local FS // 将数据输出到本地磁盘
MapR DB
MapR DB JSON
MapR FS
MapR Streams Producer
MemSQL Fast Loader
MongoDB // 将数据输出到MongoDB
MQTT Publisher // 将数据输出到MQTT消息队列中
Named Pipe // 将数据输出到UNIX命名管道
Pulsar Producer // 将数据输出到Pulsar消息队列中
RabbitMQ Producer // 将数据输出到RabbitMQ消息队列中
Redis // 将数据输出到Redis
Salesforce // 将数据输出到Salesforce
SDC RPC //将数据传递到一个或多个SDC RPC源
Send Response to Origin // 用在微服务工作流中,将数据返回到用户端
SFTP/FTP/FTPS Client // Ftp客户端,将数据输出到ftp上
Snowflake // 将数据输出到Snowflake
Solr // 将数据输出到solr
Splunk // 将数据输出到Splunk
SQL Server 2019 BDC Bulk Loader // 将数据输出到SQL Server
Syslog //将syslog消息写入Syslog服务器
To Error //将数据流发送到管道错误处理
Trash // 垃圾桶组件,用于将数据丢弃到
WebSocket Client // WebSocket客户端,通过该组件将数据发送到WebSocket服务端

四、Executor类组件使用详解

ADLS Gen1 File Metadata // 收到事件后,更改文件元数据,创建一个空文件或删除Azure Data Lake Storage Gen1中的文件或目录。
ADLS Gen2 File Metadata // 收到事件后,更改文件元数据,创建一个空文件或删除Azure Data Lake Storage Gen2中的文件或目录。
Amazon S3 // 为指定的内容创建新的Amazon S3对象,复制存储桶中的对象,或将标签添加到现有的Amazon S3对象。
Databricks Job Launcher // 收到事件记录后启动指定的Databricks作业。
Databricks Query // 收到事件后在Databricks上运行Spark SQL查询。
Email // 在收到事件后向配置的收件人发送自定义电子邮件。
HDFS File Metadata // 收到事件后,更改文件元数据,创建空文件或删除HDFS或本地文件系统中的文件或目录。
Hive Query // 收到事件记录后运行用户定义的Hive或Impala查询。
JDBC Query // 收到事件记录后运行用户定义的SQL查询。
MapR FS File Metadata // 收到事件后,更改文件元数据,创建空文件或删除MapR FS中的文件或目录。
MapReduce // 收到事件记录后启动指定的MapReduce作业。
Pipeline Finisher // 收到事件记录后停止并将管道转换为Finished状态。
SFTP/FTP/FTPS Client // 从SFTP,FTP或FTPS服务器移动或删除文件。
Shell // 在接收到事件记录执行shell脚本。
Spark // 收到事件记录后启动指定的Spark应用程序。

猜你喜欢

转载自blog.csdn.net/qq_39657909/article/details/107692813