欠損値を埋めるための一般的な方法

機能が追加される値は欠落したサンプルの総数の高い割合は、我々が直接、廃棄することができる場合(1)、実際に最終結果に影響を与え、ノイズをもたらすことができます。
 
(2)試料中のデフォルト値、および非連続的な(例えば、カテゴリ属性)の特性の属性値の場合、NaN、追加機能カテゴリとして、新しいカテゴリ。
       [注:NaN(非数、非数)はコンピュータサイエンス・データ・タイプに数値では、不定値か否発現を表します。]
(3)時々 、私たちは与えられたステップ検討する適度な値のサンプルがないが、このプロパティの値は、連続した特徴的な属性である(ここでは年齢など、私たちはステップとして、すべての2/3年を検討することができます)場合は、その後、次のタイプの属性分類としてはNaNを添加した離散化されます。
 
(4)いくつかのケースでは、欠損値の数は特に大きくはない、我々はデータのサプリメントでそれを当てはめ、既存の値によると試すことができます。

おすすめ

転載: www.cnblogs.com/xfbestgood/p/12620995.html
おすすめ