《百面机器学习》 笔记(一) 第一章 特征工程

绪论

对于一个机器学习问题,数据和特征往往决定了结果的上限,而模型、算法的选择及优化是在逐步接近这个上限。

常见的数据类型:

  1. 结构化数据:可以看作是关系型数据库的一张表,每一列都有清晰的定义,包含了数值型、类别型两种基本类型;每一行数据表示一个样本信息。
  2. 非结构化数据:非结构化数据主要包括文本、图像、音频、视频数据,其包含的信息无法用一个简单的数值表示,也没有清晰的类别定义,并且每条数据的大小各不相同。

特征归一化

  1. 什么是特征归一化:
    将数值类型的特征统一到一个大致相同的数值区间内。
  2. 进行特征归一化的常用的方法:
  • Min_Max Scaling
    对原始数据进行线性变化,使结果映射到[0,1]之间,实现对原始数据的等比缩放。
    X n o r m = X X m i n X m a x X m i n X_{norm}=\frac{X-X_{min}}{X_{max}-X_{min}}
  • Z_score Normalization
    他会将数据映射到均值为0,标准差为1的分布上
    z = X μ σ z = \frac{X-\mu}{\sigma}
  1. 为什么要对数值型特征进行归一化?
    以梯度下降算法为例,在相同的学习速率情况下,数值较大的特征将进行更多的迭代步数。反观,对数据进行归一化后,可以更容易得通过梯度下降找到最优解。
  2. 哪些情形下需要进行特征归一化,哪些情形下不需要
    通过梯度下降求解得模型通常是需要归一化的,包括线性回归、逻辑回归、支持向量机、神经网络等模型。
    但对于决策树来说并不适用。
发布了38 篇原创文章 · 获赞 9 · 访问量 2431

猜你喜欢

转载自blog.csdn.net/weixin_44264662/article/details/100749203