Data Leakage in Machine Learning 机器学习训练中的数据泄漏

其他 2018-12-15 21:54:39 阅读次数: 0

refer to: https://www.kaggle.com/dansbecker/data-leakage

There are two main types of leakage: Leaky Predictors and a Leaky Validation Strategies.

Leaky Predictors

This occurs when your predictors include data that will not be available at the time you make predictions.

模型中用了预测前不可用的feature/data，这会导致在alidation中accuracy很高，而在实际环境中部署后，accuracy很低，因为得不到这样的数据。

如，预测肺炎，如果使用“服用抗生素”作为feature，就是这种情况，因为一般是得了肺炎自然会服用抗生素，在预测肺炎这格模型中，不应该使用“服用抗生素”这个feature。

Leaky Validation Strategies

在模型处理过程中，让Validation Data影响到了模型的参数。

For example, this happens if you run preprocessing (like fitting the Imputer for missing values) before calling train_test_split.

例如，当你在调用train_test_split之前，对数据进行了预处理(如Imputer)，而预处理所用数据包含了spit之后的validation data。

猜你喜欢

转载自www.cnblogs.com/xbit/p/10124742.html

Data Leakage in Machine Learning 机器学习训练中的数据泄漏

机器学习中的数据泄露（Data Leakage）

13.Data Leakage

AI / DATA SCIENCE / MACHINE LEARNING

如何理解数据科学的中的数据泄露（Data Leakage）

论文 ❀《评价联邦学习中梯度泄漏攻击的框架》- A Framework for Evaluating Gradient Leakage Attacks in Federated Learning

Machine Learning（机器学习）

机器学习(Machine Learning)

机器学习（Machine Learning）

How To Load CSV Machine Learning Data in Weka (如何在Weka中加载CSV机器学习数据)

The Definitive Security Data Science and Machine Learning Guide

Data Science and Machine Learning Courses for 2019

MSc Data Mining and Machine Learning (2019)

Stock Price Prediction With Big Data and Machine Learning

频谱泄漏（spectral leakage）

Data Mining & Machine Learning学习笔记机器学习入门笔记之jieba分词（中文分词）（二）

Machine Learning 学习笔记

Machine Learning 学习1

机器学习（Machine Learning and Data Mining）CS 5751——Lab1作业记录

机器学习（Machine Learning and Data Mining）CS 5751——Lab2作业记录

导航-机器学习(Machine Learning)

machine learning(kaggle)机器学习。

IoT Machine Learning机器学习

机器学习（Machine Learning：ML）

Machine Learning:机器学习算法

Machine Learning机器学习入门

【Machine Learning】初识机器学习

【Machine Learning】初识机器学习

Coursera, Big Data 4, Machine Learning With Big Data (week 1)

数据挖掘(data mining)，机器学习(machine learning)，和人工智能(AI)的区别是什么

今日推荐

富文本编辑器 Quill 2.0 重磅发布，特性、可靠性与开发者体验大幅提升

“开源信徒”周鸿祎开源360智脑大模型

周排行

VS2017编译opensmile具体过程和遇到的问题

PowerEnglish——mini-story3总结

微信小程序数据库获取字符串在view中显示换行

Java静态代码块/构造代码块/构造函数/静态变量/成员变量(相关示例)

Keras使用tensorflowjs部署demo

window下用git连接Github

图象的全变分和去噪

LeetCode刷题笔记--119. Pascal's Triangle II

【Linux】进程间通信 - 管道

polyA|ribo-minus|differentiated cell|Genetic heterogeneity

每日归档

更多

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)

2024-04-13(119)

2024-04-12(38)

2024-04-11(14)

2024-04-10(68)

2024-04-09(5)

2024-04-08(60)