绪论
对于一个机器学习问题,数据和特征往往决定了结果的上限,而模型、算法的选择及优化是在逐步接近这个上限。
常见的数据类型:
- 结构化数据:可以看作是关系型数据库的一张表,每一列都有清晰的定义,包含了数值型、类别型两种基本类型;每一行数据表示一个样本信息。
- 非结构化数据:非结构化数据主要包括文本、图像、音频、视频数据,其包含的信息无法用一个简单的数值表示,也没有清晰的类别定义,并且每条数据的大小各不相同。
特征归一化
- 什么是特征归一化:
将数值类型的特征统一到一个大致相同的数值区间内。 - 进行特征归一化的常用的方法:
- Min_Max Scaling
对原始数据进行线性变化,使结果映射到[0,1]之间,实现对原始数据的等比缩放。
- Z_score Normalization
他会将数据映射到均值为0,标准差为1的分布上
- 为什么要对数值型特征进行归一化?
以梯度下降算法为例,在相同的学习速率情况下,数值较大的特征将进行更多的迭代步数。反观,对数据进行归一化后,可以更容易得通过梯度下降找到最优解。 - 哪些情形下需要进行特征归一化,哪些情形下不需要
通过梯度下降求解得模型通常是需要归一化的,包括线性回归、逻辑回归、支持向量机、神经网络等模型。
但对于决策树来说并不适用。