白面机器学习笔记（一）

特征工程

一、特征归一化：

（1）为什么对数值类型的特征做归一化：

1、是为了得到更加准确的结果，使各项指标处于同一数值量级或者统一到一个大致的数值区间内，以便进行分析。

2、不同数值特征的梯度下降的速度更加的一致，能更快的找到梯度下降的最优解。

（2）常用的数值特征的归一下的方法：

1、线性函数归一化：对原始数据进行线性变换，使得结果映射到【0，1】之间，实现对原始数据的等比例缩放。公式如下：

数据归一化后的值=（原始数据值-数据的最小值）/（数据的最大值-数据的最小值）

2、零均值归一化。它会将原始数据映射到均值为0，标准差为1的的分布上，归一下公式定义为：

归一化后的数据=输入的数据-特征的均值/标准差

特征归一化适用的情况：线性回归、逻辑回归、支持向量机、神经网络等模型。不适用的情况：决策树模型不适用（节点分裂主要依赖于信息增益比，与是否归一化无关）

扫描二维码关注公众号，回复： 11453867 查看本文章

二、类别型特征：

在对数据进行预处理时，应该怎样处理类别型特征：

1、序号编码：处理类别间有大小关系的数据。高-中-低 ->3-2-1

2、狂热编码：处理类别间不具有大小关系的特征。 A-B-AB-O->(1,0,0,0),(0,1,0,0)(0,0,1,0)(0,0,0,1)

取值应该注意的问题：（1）使用稀疏向量来节省空间。（2）配合特征选择来降低维度

3、二进制编码:先用序号编码给每个类别赋予一个类别ID，然后将类别ID的二进制编码作为结果。本质是是哈希映射，维数少于狂热编码，节省了空间。

三、图像数据不足的处理方法：

在图像分类中，训练数据不足会带来什么问题，如何缓解数据不足带来的问题？

模型所提供的信息包括两个方面：1、训练数据中蕴含的信息 2、模型形成过程中（构造，学习，推理等），人们提供的先验信息。

（1）、图像扩充、一定程度内的随机旋转，平移，裁剪，填充，左右翻转。

（2）、对图像中的像素添加噪声扰动，比如椒盐，高斯噪声。

（3）、颜色变换

（4）、改变亮度，清晰度、对比度、锐度。

迁移学习、生成对抗网络。