kettle实战-1概览-1.2适用场景-数据处理1

  上一节讲了ETL,ETL就是在数据处理,强调的是批量、高效的处理数据。这节要讲一下数据处理的场景,让人更直观的了解kettle的作用,什么地方可以用它,比其它方式有什么优势。

  数据处理在我们日常项目中,主要包括数据初始化、迁移、同步、清洗、导入导出等。首先数据初始化一般在项目上线前,会有一些基础类主数据要预先导入系统中,这时的数据源可能有多种,可能是文本类文件,如excel或txt文件。也可能是从其它库来获取,或从web服务中来,最终经过处理后写入本项目的数据库中。初始化场景的关注点在多种数据源,和短期行为,上线后一般就不需要了。如果我们不用工具,一般是需要写程序或手工搞定,写程序肯定要花费时间,占用人手,如果遇到一些比较特殊的数据源,比如SAP,NOSQL等不常见的,可能团队的人员还不一定熟悉,还有一个学习成本。关键还是短期的,上线又不用了,极浪费资源。有人可能会说,至少我学会了一些技术啊,嗯,是的没错,但对于项目经理的话就不一定是这么想了,钱可能还好,时间有时更重要。前言部分我己经说了自己的一个案例,初始化数据使用ETL工具kettle会让工作事半功倍,工具本身的学习成本很低,市面上常见的数据源基本都有。甚至还可以处理一些文件,我们在另一个项目中,需要上线前把一些产品图片初始化在系统中,我们运用kettle工具读取图片文件,并输出至分库式文件系统中。

  数据迁移可能出现在项目中要把某些数据转至另一个地方或几个地方。数据同步,一般是指将数据准实时(较短时间内)同步到另一个地方,一般供查询或统计的数据仓库中。数据清洗一般强调数据处理过程,数据会经过较验、去重、合并、删除、计算等等逻辑处理。以上场景都一些相同之处,只是着重点不太一样。

猜你喜欢

转载自blog.csdn.net/onemy/article/details/89308871
今日推荐