python#标准缩放

数值型数据:标准缩放

from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import jieba
from sklearn.preprocessing import MinMaxScaler,StandardScaler


def mm():
    """
    归一化处理
    把数据进行缩放
    特征同等重要的时候,进行归一化。。
    目的:使得某一个特征对最终结果不会造成更大的影响
    缺点:对异常点,最大点,最小点不好控制
    """
    mm = MinMaxScaler(feature_range=(2,3))
    # fit_transform()的作用就是先拟合数据,然后转化它将其转化为标准形式
    data = mm.fit_transform([[90,2,10,40],[60,6,15,45],[23,44,55,1]])
    print(data)


def stand():
    '''
    标准化缩放
    处理之后每列来说所有数据都聚集在均值0附近,标准差差为1
    '''
    std = StandardScaler()
    data = std.fit_transform([[1,-1,3],[2,5,6],[3,4,6]])
    print(data)
    # 标准化总结,在已经有的样本足够多的情况下比较稳点,适合现在嘈杂大数据场景

if __name__ == '__main__':
    stand()


'''

'''

缺失值 sklearn.preprocessing.Imputer

如何处理缺失值
1.要么删除

2.要么增加
可以通过缺失值,每行每列的平均值、中位值来填充
Imputer(missing_values=‘NaN’,strategy=‘mean’,axis=0)
完成缺失值插补

missing_values=‘NaN’-----找到要写值的地方,NaN空置
strategy=‘mean—用mean值填补
axis=0—列值
replace(’?’,np.nan)------缺失值要换,只能换np.nan的值

发布了39 篇原创文章 · 获赞 1 · 访问量 390

猜你喜欢

转载自blog.csdn.net/qq_39441111/article/details/104783281