白面机器学习笔记(一)

特征工程

一、特征归一化:

(1)为什么对数值类型的特征做归一化:

   1、是为了得到更加准确的结果,使各项指标处于同一数值量级或者统一到一个大致的数值区间内,以便进行分析。

   2、不同数值特征的梯度下降的速度更加的一致,能更快的找到梯度下降的最优解。

(2)常用的数值特征的归一下的方法:

   1、线性函数归一化:对原始数据进行线性变换,使得结果映射到【0,1】之间,实现对原始数据的等比例缩放。公式如下:

             数据归一化后的值=(原始数据值-数据的最小值)/(数据的最大值-数据的最小值)

    2、零均值归一化。它会将原始数据映射到均值为0,标准差为1的的分布上,归一下公式定义为: 

             归一化后的数据=输入的数据-特征的均值/标准差

特征归一化适用的情况:线性回归、逻辑回归、支持向量机、神经网络等模型 。  不适用的情况:决策树模型不适用(节点分裂主要依赖于信息增益比,与是否归一化无关)

扫描二维码关注公众号,回复: 11453867 查看本文章

二、类别型特征:

在对数据进行预处理时,应该怎样处理类别型特征:

1、序号编码:处理类别间有大小关系的数据。高-中-低 ->3-2-1

2、狂热编码:处理类别间不具有大小关系的特征。 A-B-AB-O->(1,0,0,0),(0,1,0,0)(0,0,1,0)(0,0,0,1)

取值应该注意的问题:(1)使用稀疏向量来节省空间。(2)配合特征选择来降低维度

3、二进制编码:先用序号编码给每个类别赋予一个类别ID,然后将类别ID的二进制编码作为结果。本质是是哈希映射,维数少于狂热编码,节省了空间。

三、图像数据不足的处理方法:

在图像分类中,训练数据不足会带来什么问题,如何缓解数据不足带来的问题?

模型所提供的信息包括两个方面:1、训练数据中蕴含的信息 2、模型形成过程中(构造,学习,推理等),人们提供的先验信息。

(1)、图像扩充、一定程度内的随机旋转,平移,裁剪,填充,左右翻转。

(2)、对图像中的像素添加噪声扰动,比如椒盐,高斯噪声。

(3)、颜色变换

(4)、改变亮度,清晰度、对比度、锐度。

迁移学习、生成对抗网络。

猜你喜欢

转载自www.cnblogs.com/lyp1010/p/13384682.html