昊合数据整合平台HHDI常见问题

Q： HaoheDI和Informatica PowerCenter、IBM DataStage的区别在哪里？

A: Informatica和DataStage是比较重量级的ETL平台，其自身就是比较复杂的数据处理引擎，一般是通过大量转换组件利用自身引擎的计算能力完成数据抽取、清洗、转换并最后加载到目标数据库中，主体为c/s架构，数据转换、作业流程、监控、管理等都由不同的软件部件完成，由于其包含大量的组件和功能，导致学习曲线较长，对开发和运维人员的技术水平要求较高，出现问题难以排错和性能调优，安装部署迁移等都非常复杂，且采购成本过高，反而给企业实施数据类项目带来较大障碍。相比而言，HaoheDI优势主要在于大大简化ETL实施过程的复杂度，产品采用B/S架构，0部署，实施方法论采用先将数据抽取到ODS，再利用数据库自身的SQL或存储过程来进行数据处理的ELT模式，因此对开发人员的要求较低，只需要掌握SQL开发即可上手，任务作业的开发、管理、执行监控、运维等各项操作均通过浏览器完成，使开发人员将更多的时间和精力用于数据业务逻辑的处理上，显著降低实施复杂度和成本。

Q：系统能否支持从SAP ECC系统中的抽取数据？采用何种方式？

A：可以通过2种方式从SAP ECC系统中抽取数据，一种是通过JCO驱动利用OPEN SQL来抽取透明表和簇表，支持表关联和条件查询，这种方式需要在SAP系统中创建自定义函数RFC，且只支持ECC6.0及以上版本；另外一种方式是使用专门的CDATA JDBC驱动进行连接，支持通常的SQL语句，可访问透明表和簇表，这种方式对于字段较多的表也需要创建RFC。

Q：该产品数据抽取的速度如何？如何提高抽取的效率？

A：以一个有10个字段，字段总长度在512个字节的表为例，异构数据库的数据抽取速度通常在每秒1-5万条，这主要取决于源和目标数据库的性能、驱动程序的性能、网络带宽、IO速度、字段类型等多方面因素制约。如果需要在短时间内倒入大批量数据，可以采用多张表并行抽取的方式，为了不给源和目标数据库服务器造成较大压力，建议控制在10个并发以下。

Q：系统意外宕机导致本应自动调度的计划没有执行怎么办？

A： HaoheDI支持主备机模式，同时部署两套应用，一个为主机，一个为备机，两个应用共用一个资料库（hhdi.h2.db），在调度计划达到触发条件被自动调起时，备机会检测主机的服务是否还活着，如果主机活着，备机不做任何操作，如果主机无法探测到，则备机执行自动的调度计划。

Q: 能否执行Kettle（PDI）开发的转换和作业？是否需要在HaoheDI的服务器上安装Kettle？

A：可以，包括直接调用文件和从文本资源库、数据库资源库中调用，可以传递变量，并在执行监控页面中可以看到Kettle的完整的执行信息，无需安装Kettle的程序，只需要将ktr、kjb文件或资源库拷贝到HaoheDI的服务器中，如果用到kettle插件的话，需要将其plugins目录下的插件目录拷贝到HaoheDI的应用目录下。

Q: 一个公司有100个子公司，每个子公司均部署有独立的业务系统，其数据库格式完全一致，只是服务器IP地址不同，如何从这100个相似的数据库中抽取数据到总部？

A：如果每个子公司都配置单独的数据连接，这样工作量无疑是很大的，HaoheDI的数据连接配置项中有些内容是支持变量配置的，包括IP地址（机器名）、端口号、数据库/模式，可以将IP地址配置成变量，然后通过变量赋值任务、条件判断任务、子作业等组合成可循环执行的作业流程，按IP地址从小到大循环依次抽取到目标数据库中。

Q: 系统能否调用Java开发的类及其方法？

A: 可以通过执行JavaScript任务，写JavaScript语句来调用Java文件，使用手册中有示例，需要将要调用的Jar包或class文件上传到HaoheDI应用的Lib目录中。

Q: 产品是否可以支持自动建表？

A: 如果目标表不存在，数据抽取任务可以根据源表或SELECT语句的字段结构来创建目标表，建表语句可以修改。

Q：产品对Hadoop的支持如何？

A: 可通过各种专门的JDBC驱动连接不同的SQL on Hadoop引擎，比如Hive/Spark、Hbase、Impala、Cassandra、Drill等，可以从这些系统中Select数据，也可以执行各种DDL或DML操作，如使用Load Data命令将文本中的数据导入Spark中。

Q：数据库量级大了后效率会变慢吗？

A：整合平台的速度不会变慢，没直接关系，当然由于数据库量级大了后，数据库的速度变慢以后，在整合平台里执行的任务也会变慢，但这是和数据库相关，不是和整合平台相关。

Q：产品能否支持实时的数据采集？

A：做实时的CDC数据采集通常是需要访问数据库日志的，且对数据库的归档模式有一定要求，能做这方面工作的工具比较少，常见的有Oracle的goldengate和Informatica PowerExchange，这类工具通知只实现数据实时采集，其它的ETL工作还需要借助其它工具完成，HaoheDI目前只能做到按批进行抽取，比如按时间戳或id号做定时的增加抽取，如果数据量不是特别大，可以将调度计划设为每分钟抽取一次增量数据，以实现准实时的效果，但是无时间戳的数据和修改删除的数据还是不容易实时获取，可搭配其它实时CDC工具来进行使用。

Q：正式版产品的授权License是怎么计算的？

A：产品按照一台服务器一个License进行授权，lic文件将绑定这台服务器的主板UUID，对cpu核数、操作系统、用户数、任务作业数都没有限制。

Q：外部应用是否可以通过一个URL来调用系统中的作业的执行？

A：可以通过http协议调用一个url来手工执行系统中的一个作业。

昊合数据整合平台HHDI常见问题

猜你喜欢