記事のディレクトリ
✌データの正規化、標準化、および正則化
1.✌正規化
式(x-min)/(max-min)を使用して、データを0〜1間隔にスケーリングします。
2.✌標準化
データを、平均が0、分散が1の標準正規分布に変換します。
3.✌正則化
正則化の主な機能は、過剰適合を防ぐことです。モデルに正則化項目を追加すると、モデルの複雑さを制限し、モデルの複雑さとパフォーマンスのバランスをとることができます。
一般的に使用される正則化方法には、L1正則化とL2正則化が含まれます。L1正則化とL2正則化は、損失関数のペナルティ項と見なすことができます。いわゆる「ペナルティ」は、損失関数のいくつかのパラメーターにいくつかの制限を課すことです。
4.✌コードテスト
4.1✌ガイドライブラリ
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import Normalizer
4.2✌データを作成する
x=np.random.randint(1,1000,(10000,5))
x=pd.DataFrame(x)
4.3✌元のデータの平均と分散を表示する
display(x.mean())
display(x.var())
4.4✌正規化
from sklearn.preprocessing import MinMaxScaler
x_min=MinMaxScaler().fit_transform(x)
x_min=pd.DataFrame(x_min)
display(x_min.mean())
display(x_min.var())
4.5✌標準化
from sklearn.preprocessing import StandardScaler
x_std=StandardScaler().fit_transform(x)
x_std=pd.DataFrame(x_std)
display(x_std.mean())
display(x_std.var())
4.6✌正則化
from sklearn.preprocessing import Normalizer
x_nor=Normalizer().fit_transform(x)
x_nor=pd.DataFrame(x_nor)