昊合数据整合平台HHDI常见问题

Q: HaoheDI和Informatica PowerCenter、IBM DataStage的区别在哪里?

A: Informatica和DataStage是比较重量级的ETL平台,其自身就是比较复杂的数据处理引擎,一般是通过大量转换组件利用自身引擎的计算能力完成数据抽取、清洗、转换并最后加载到目标数据库中,主体为c/s架构,数据转换、作业流程、监控、管理等都由不同的软件部件完成,由于其包含大量的组件和功能,导致学习曲线较长,对开发和运维人员的技术水平要求较高,出现问题难以排错和性能调优,安装部署迁移等都非常复杂,且采购成本过高,反而给企业实施数据类项目带来较大障碍。相比而言,HaoheDI优势主要在于大大简化ETL实施过程的复杂度,产品采用B/S架构,0部署,实施方法论采用先将数据抽取到ODS,再利用数据库自身的SQL或存储过程来进行数据处理的ELT模式,因此对开发人员的要求较低,只需要掌握SQL开发即可上手,任务作业的开发、管理、执行监控、运维等各项操作均通过浏览器完成,使开发人员将更多的时间和精力用于数据业务逻辑的处理上,显著降低实施复杂度和成本。

Q: 系统能否支持从SAP ECC系统中的抽取数据?采用何种方式?

A: 可以通过2种方式从SAP ECC系统中抽取数据,一种是通过JCO驱动利用OPEN SQL来抽取透明表和簇表,支持表关联和条件查询,这种方式需要在SAP系统中创建自定义函数RFC,且只支持ECC6.0及以上版本;另外一种方式是使用专门的CDATA JDBC驱动进行连接,支持通常的SQL语句,可访问透明表和簇表,这种方式对于字段较多的表也需要创建RFC。

Q: 该产品数据抽取的速度如何?如何提高抽取的效率?

A: 以一个有10个字段,字段总长度在512个字节的表为例,异构数据库的数据抽取速度通常在每秒1-5万条,这主要取决于源和目标数据库的性能、驱动程序的性能、网络带宽、IO速度、字段类型等多方面因素制约。如果需要在短时间内倒入大批量数据,可以采用多张表并行抽取的方式,为了不给源和目标数据库服务器造成较大压力,建议控制在10个并发以下。

Q: 系统意外宕机导致本应自动调度的计划没有执行怎么办?

A: HaoheDI支持主备机模式,同时部署两套应用,一个为主机,一个为备机,两个应用共用一个资料库(hhdi.h2.db),在调度计划达到触发条件被自动调起时,备机会检测主机的服务是否还活着,如果主机活着,备机不做任何操作,如果主机无法探测到,则备机执行自动的调度计划。

Q: 能否执行Kettle(PDI)开发的转换和作业?是否需要在HaoheDI的服务器上安装Kettle?

A: 可以,包括直接调用文件和从文本资源库、数据库资源库中调用,可以传递变量,并在执行监控页面中可以看到Kettle的完整的执行信息,无需安装Kettle的程序,只需要将ktr、kjb文件或资源库拷贝到HaoheDI的服务器中,如果用到kettle插件的话,需要将其plugins目录下的插件目录拷贝到HaoheDI的应用目录下。

Q: 一个公司有100个子公司,每个子公司均部署有独立的业务系统,其数据库格式完全一致,只是服务器IP地址不同,如何从这100个相似的数据库中抽取数据到总部?

A: 如果每个子公司都配置单独的数据连接,这样工作量无疑是很大的,HaoheDI的数据连接配置项中有些内容是支持变量配置的,包括IP地址(机器名)、端口号、数据库/模式,可以将IP地址配置成变量,然后通过变量赋值任务、条件判断任务、子作业等组合成可循环执行的作业流程,按IP地址从小到大循环依次抽取到目标数据库中。

Q: 系统能否调用Java开发的类及其方法?

A: 可以通过执行JavaScript任务,写JavaScript语句来调用Java文件,使用手册中有示例,需要将要调用的Jar包或class文件上传到HaoheDI应用的Lib目录中。

Q: 产品是否可以支持自动建表?

A: 如果目标表不存在,数据抽取任务可以根据源表或SELECT语句的字段结构来创建目标表,建表语句可以修改。

Q: 产品对Hadoop的支持如何?

A: 可通过各种专门的JDBC驱动连接不同的SQL on Hadoop引擎,比如Hive/Spark、Hbase、Impala、Cassandra、Drill等,可以从这些系统中Select数据,也可以执行各种DDL或DML操作,如使用Load Data命令将文本中的数据导入Spark中。

Q: 数据库量级大了后效率会变慢吗?

A: 整合平台的速度不会变慢,没直接关系,当然由于数据库量级大了后,数据库的速度变慢以后,在整合平台里执行的任务也会变慢,但这是和数据库相关,不是和整合平台相关。

Q: 产品能否支持实时的数据采集?

A: 做实时的CDC数据采集通常是需要访问数据库日志的,且对数据库的归档模式有一定要求,能做这方面工作的工具比较少,常见的有Oracle的goldengate和Informatica PowerExchange,这类工具通知只实现数据实时采集,其它的ETL工作还需要借助其它工具完成,HaoheDI目前只能做到按批进行抽取,比如按时间戳或id号做定时的增加抽取,如果数据量不是特别大,可以将调度计划设为每分钟抽取一次增量数据,以实现准实时的效果,但是无时间戳的数据和修改删除的数据还是不容易实时获取,可搭配其它实时CDC工具来进行使用。

Q: 正式版产品的授权License是怎么计算的?

A: 产品按照一台服务器一个License进行授权,lic文件将绑定这台服务器的主板UUID,对cpu核数、操作系统、用户数、任务作业数都没有限制。

Q: 外部应用是否可以通过一个URL来调用系统中的作业的执行?

A: 可以通过http协议调用一个url来手工执行系统中的一个作业。

Q: 系统中的数据源、转换任务、作业流程、执行日志等内容都存放在什么地方?如何备份和迁移?

A: 系统中的所有对象和数据都存储在一个h2数据库文件中,备份和迁移只需要将此文件备份和复制到其它位置即可。

猜你喜欢

转载自www.cnblogs.com/haohedi/p/10411145.html