データセット--iris(Rアイリス自身の言語パック)
スケール機能
スケールのデフォルトの機能は、データがゼロと標準化1の標準偏差を意味しています開発することです。その2つのパラメータの中心と規模:
1)中心とスケールデフォルト、すなわち、T、真であります
2)中心が真を示すデータをセンタに
3)真を表す正規化されたデータをスケーリング
一元化:いわゆる集中化されたデータは、データセットマイナスデータセットの平均値のデータを参照します。
標準化:標準化は、標準偏差で除算した後にデータの中心です。[0,1]の範囲に変換します。
中心と正規化#
データ(アイリス)#データの読み取り
ヘッド(アイリス)#のデータを表示
Standard0 <-scale(虹彩[1:4])
のヘッド(Standard0)
標準1 <-scale(虹彩[1:4]、中心= T)
ヘッド(標準1)
Standard2 <-scale(虹彩[1:4]、中心= F、スケール= T)
ヘッド(Standard2)
自己関数法により、第2
試験< - アイリス ノーマライズ < - 関数(X){ リターン((X -分(X))/(MAX(X) - 分(X))) } test_n < - として lapply .data.frame((試験[ 1:4 ]、ノーマライズ)) ヘッド(test_n)
三、キャレット機能パッケージの前処理
多くの操作は、中央および標準化を含む機能特性の変数に実行することができる前処理。各操作の前処理評価関数のパラメータが必要となり、predict.preProcess指定されたデータセットに適用されます。
自己機能を比較すると、非数値変数は許容されるが、それは、データ・セットの右側にある変数の十分な非予約値を無視されます。
standard4 < -前処理(IRIS、メソッド= ' 範囲' )の間に#0-1に(X-分(X) )/(MAX(X)-min(x))が、 実際には、意味の範囲は理解されていない iris_sを < - (standard4、IRIS)を予測 iris_sを