机器学习中的数据泄露（Data Leakage）

业界资讯 2023-08-12 18:02:33 阅读次数: 0

1.主要参考了这篇博客：

(311条消息) Kaggle教程机器学习中级7 数据泄露_李乾文的博客-CSDN博客

我觉得可以用一句不太严谨的大白话来解释就是：

数据泄露就是使用了未来信息（对于时序预测任务）。

1、介绍

数据泄露是指，在训练数据中包含目标信息，但在预测时没有可用的类似数据。这会使得训练数据（或者验证数据）效果比较好，但实际生产（预测）时效果特别差。

也就是说，泄漏导致模型看起来很精确，但用模型做出来的决策却很不准确。

主要有两种泄露类型：target leakage（目标泄露） 和 train-test contamination（训练测试污染）

细节请跳转到链接中学习。我在这里主要对训练测试污染进行解释：

这段描述的是训练测试污染的问题，它指的是在进行机器学习模型的训练和验证时，如果不正确地处理训练数据和验证数据之间的关系，会导致模型在验证阶段表现良好，但在实际应用中表现不佳的情况。

举个例子来说明，假设你在进行数据预处理时，对整个数据集进行了缺失值填充操作，然后再将数据集划分为训练集和验证集。这样做的结果是，验证集中的数据在填充缺失值时已经受到了训练集数据的影响，从而使得模型在验证阶段获得了较好的性能指标。然而，当你使用该模型进行实际预测时，由于无法获取到验证集的信息，填充缺失值的方式将与训练过程中的方式不同，导致模型无法正确处理新数据的缺失值情况，从而导致性能下降。

为了避免训练测试污染的问题，建议在进行数据预处理时，将预处理步骤包含在模型训练的pipeline中。这样，在进行交叉验证时，每次将训练集和验证集划分后，都会对训练集进行独立的预处理操作，确保模型在验证阶段不会受到训练集的影响。

总之，正确处理训练数据和验证数据之间的关系，避免训练测试污染是确保模型能够在实际应用中有效泛化的重要步骤。

猜你喜欢

转载自blog.csdn.net/weixin_43332715/article/details/131690381

机器学习中的数据泄露（Data Leakage）

13.Data Leakage

如何理解数据科学的中的数据泄露（Data Leakage）

Data Leakage in Machine Learning 机器学习训练中的数据泄漏

论文 ❀《评价联邦学习中梯度泄漏攻击的框架》- A Framework for Evaluating Gradient Leakage Attacks in Federated Learning

《AppIntent - Analyzing Sensitive Data Transmission in Android for Privacy Leakage Detection》论文阅读笔记

频谱泄漏（spectral leakage）

Source Current、Sink Current、Quiescent Current、Leakage Current、Ground Current

Tunable Measures for Information Leakage and Applications to Privacy-Utility Tradeoffs

Deep Leakage From Gradients文献阅读及代码重现

射频芯片测试之Open/Short、Leakage测试

机器学习-数据泄露

“Deep models under the GAN: information leakage from collaborative deep learning”阅读笔记

Kaggle教程机器学习中级7 数据泄露

机器学习-数据预处理(Data Preprocessing)

【机器学习】数据增强(Data Augmentation)

ML之FE：机器学习算法建模中的特征穿越/数据泄露的简介、常见案例、解决方法之详细攻略

深度学习中的数据增强（data augmentation）

机器学习：使用numpy实现数据增强（Data Augmentation)

机器学习中的处理数据

机器学习中的数据简介

机器学习与深度学习系列连载：第一部分机器学习（六）训练数据和测试数据（Train data and Test data）

机器学习笔记第1课：机器学习中的数据

你可能过于高估了机器学习算法能力，带你解读鲜为人知的数据泄露问题

机器学习、数据科学与金融行业系列六：数据治理（Data Governance）下

机器学习、数据科学与金融行业系列五：数据治理（Data Governance）上

机器学习中数据预处理的方式

机器学习中的数据清洗与特征处理

机器学习中数据集的拆分

机器学习中的数据预处理

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)