このチュートリアルでは、データの漏洩やデータ漏洩を防止する方法が何であるかを学びます。あなたはそれを防ぐ方法がわからない場合、それは多くの場合、それはあなたのモデルで繊細かつ危険な方法を弱体化させるだろう、リークが発生します。このように、データ科学者の練習のために、これが最も重要な概念の一つです。
1.概要
データ漏洩(または漏れ)あなたのトレーニングデータで発生したターゲットに関する情報が含まれていますが、予測するモデルを使用した場合、同様のデータを取得することができません。
これは、トレーニングセットの高性能(おそらくデータを検証する)が、生産のモデルのパフォーマンスの低下につながります。
言い換えれば、このモデルはあなたが意思決定を行うためにモデルを使用することを開始するまで、そのモデルは非常に不正確になる、非常に正確な結果として漏れているようです。
漏洩の主に2つのタイプがあります。
ターゲット漏れ和列車の試験汚染。
2、