kettle实战-1概览-1.2适用场景-数据处理1 - 代码天地

kettle实战-1概览-1.2适用场景-数据处理1

其他 2019-04-18 15:47:50 阅读次数: 0

　　上一节讲了ETL，ETL就是在数据处理，强调的是批量、高效的处理数据。这节要讲一下数据处理的场景，让人更直观的了解kettle的作用，什么地方可以用它，比其它方式有什么优势。

　　数据处理在我们日常项目中，主要包括数据初始化、迁移、同步、清洗、导入导出等。首先数据初始化一般在项目上线前，会有一些基础类主数据要预先导入系统中，这时的数据源可能有多种，可能是文本类文件，如excel或txt文件。也可能是从其它库来获取，或从web服务中来，最终经过处理后写入本项目的数据库中。初始化场景的关注点在多种数据源，和短期行为，上线后一般就不需要了。如果我们不用工具，一般是需要写程序或手工搞定，写程序肯定要花费时间，占用人手，如果遇到一些比较特殊的数据源，比如SAP，NOSQL等不常见的，可能团队的人员还不一定熟悉，还有一个学习成本。关键还是短期的，上线又不用了，极浪费资源。有人可能会说，至少我学会了一些技术啊，嗯，是的没错，但对于项目经理的话就不一定是这么想了，钱可能还好，时间有时更重要。前言部分我己经说了自己的一个案例，初始化数据使用ETL工具kettle会让工作事半功倍，工具本身的学习成本很低，市面上常见的数据源基本都有。甚至还可以处理一些文件，我们在另一个项目中，需要上线前把一些产品图片初始化在系统中，我们运用kettle工具读取图片文件，并输出至分库式文件系统中。

　　数据迁移可能出现在项目中要把某些数据转至另一个地方或几个地方。数据同步，一般是指将数据准实时（较短时间内）同步到另一个地方，一般供查询或统计的数据仓库中。数据清洗一般强调数据处理过程，数据会经过较验、去重、合并、删除、计算等等逻辑处理。以上场景都一些相同之处，只是着重点不太一样。

猜你喜欢

转载自blog.csdn.net/onemy/article/details/89308871

kettle实战-1概览-1.2适用场景-数据处理1

kettle实战-1概览-1.2适用场景-数据处理２

kettle实战-1概览-1.3适用场景-业务处理

Kettle定时执行应用场景1

kettle实战-1概览-1.4怎样学好KETTLE

1 数据处理

数据处理1

kettle实战-1概览-1.1ETL介绍

volatile的适用场景模式 #1：状态标志 demo

pandas数据处理—1

python—数据处理 1

数据处理随笔-1

CTPN（1）数据处理

Atitit redis使用场合总结使用场景目录 1.1. 3. Session 存储 1 1、配置数据查询 1 2. 排行榜应用，取TOP N操作 1 1.2. 1、查找最

数据批处理神器-Spring Batch(1)简介及使用场景

大数据处理框架技术概览

实时数据处理与边缘计算：如何将数据处理和分析推到应用场景端？

AWS 大数据实战 Lab1 - 流数据处理(二)

吉林1号卫星数据处理

CMORPH 数据处理1（下载指南）

python数据处理D1

1.简单的redis数据处理

R语言___数据处理1向量

海量数据处理（1）：MapReduce

1.数据处理专题

数据处理：Numpy & Pandas（1）

JAVA多线程1——ReentrantLock与synchronized的区别和适用场景

深度学习基础原理（1）--深度学习的基本流程与适用场景

L1、L2正则化的原理及适用场景

从图森未来的数据处理平台，看Serverless 工作流应用场景

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)