DataCleaner中文使用文档

DataCleaner中文自编译文档

DataCleaner是一个数据质量工具包,您可以分析、更正和丰富数据。主要是分析数据,清洗数据,以及在匹配和主数据管理解决方案中使用。最后的数据呈现不是太直观。
最近工作中刚好使用到,看了原官方全英文文档不是那么直观,谷歌自动翻译也很难受。抽空自己人性化翻译了一下,便于有兴趣的伙伴了解理解。
官方文档地址:https://datacleaner.github.io/documentation

Ⅰ.DataCleaner简介

1.背景和概念

      1.1 什么是数据质量(DQ)?
      1.2 什么是数据分析?
      1.3 什么是数据争用?
      1.4 什么是数据存储?
            复合数据存储
      1.5 什么是数据监控?
      1.6 什么是主数据管理(MDM)?

2.DataCleaner桌面版入门

      2.1 安装客户端
      2.2 连接数据库(或存储文件)
      2.3 向job中添加组件
      2.4 连接组件
            转换器输出
            过滤条件
            输出数据流
      2.5 执行job
      2.6 保存和打开job
      2.7 job示例模板
      2.8 将清洗后的数据写入文件
Ⅱ.组件分析

3. Transform
4. Improve
5. Analyze
6. Write

Ⅲ.数据参考

7. Dictionaries
8. Synonyms (aka. Synonym catalogs)
9. String patterns

Ⅳ.相关配置

11. Analysis job files
12. Logging
13. Database drivers

Ⅴ.调用 DataCleaner jobs

14. Command-line interface
15. Apache Hadoop and Spark interface

Ⅵ.第三方集成

16. Pentaho integration

Ⅶ.开发者指南

17. Architecture
18. Executing jobs through code
19. Developer resources
20. Extension packaging
21. Embedding DataCleaner

更新中。。。。。。。。。。。。。。

猜你喜欢

转载自blog.csdn.net/weixin_43899418/article/details/112949079