AI 3.Google OpenSources TensorFlow Data Validation Libr

作者:禅与计算机程序设计艺术

1.简介

TensorFlow Data Validation (TFDV) 是 Google 开源的一款机器学习数据验证库,其主要功能包括检测和清理异常数据、评估数据质量和处理偏差的数据流水线。该项目于 2019 年 7 月份发布,目前已经过去了 2 年多的时间,截止到今天,该项目仍然处于维护阶段,并新增了很多新特性,比如:支持 Avro 数据集、输出统计信息等。

2.功能概述

2.1 检测异常数据

TFDV 可以对输入数据进行分布式分析,并提供详细的异常报告。如:检测缺失值、不平衡数据、异常值、重复值、类型错误等。通过 TFDV 可以发现数据质量问题,帮助数据科学家及相关人员解决数据问题,提升数据分析效率。

2.2 清理异常数据

TFDV 提供两种数据清理方式,可选择其中一种进行清理操作:

  1. 删除缺失值: 通过设置阈值或相似性度量来删除缺失值;
  2. 替换异常值: 根据统计学模型来确定异常值的取值范围并替换异常值。

这样可以有效地消除异常值影响,保持数据质量高效有效。

2.3 评估数据质量

TFDV 可针对每一列特征计算多个度量指标,包括完整性、唯一性、分散程度、均匀性、连续性等。通过这些指标,用户可以直观了解数据质量的情况,从而对数据进行修正或预测。

2.4 数据流水线

数据集成过程中的许多环节都可以借助 TFDV 的工具来自动化完成。包括:数据转换、数据加载、数据采样、数据增强、模型训练等。通过数据流水线的方式,可以实现

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/132493539