《百面机器学习》第一章——特征工程 笔记(简)

1. 特征归一化

对数值类型的特征做归一化,最终将特征的取值都统一到大致相等的数值区间内。

优点:

  1. 可将所有特征消除量纲。
  2. 避免结果倾向于数值差别较大的特征。

常见的方法有:

  1. 线性函数归一化
  2. 零均值归一化

适用于:逻辑回归、SVM、神经网络
不适用于:决策树

2. 类别型特征

主要指的非数值型的离散特征,如性别(男、女)。

常见的处理方法:

  1. 序号编码:处理具有大小关系的数据。如:高、中、低,映射为3、2、1。
  2. 独热编码(one-hot):处理类别之间无大小关系的离散类别数据。
    1) 使用系数向量来节省空间
    2) 配合特征选择降低维度
  3. 二进制编码:两步走先赋值为id,再将id二进制化。(相较于one-hot节省空间)

3. 高维组合特征的处理

为了提高复杂关系的拟合能力,通常将一阶离散特征两两组合,构成高阶特征。
如:
在这里插入图片描述
在这里插入图片描述

但是对于id类的特征,优于其数量十分庞大,不适用

4.组合特征

特征的组合,如果是简单的两两组合,会产生参数过多、过拟合的问题。并且并不是所有的特征都是有意义的。
所以我们可以借助决策树的方法,来进行特征的选择与组合。

5. 文本表示模型

文本的表示是NLP中的一个基础性的工作与技术,通常采用的方法有如下几个:

  1. 词袋模型
  2. TF-IDF值
  3. Word2Vec
  4. LDA

在抽取高层的语义特征时,采用了CNN,比起DNN和RNN的优势在于:

  1. 参数量少
  2. 训练速度快
  3. 降低了过拟合风险. .

6. Word2Vec

其有两种模式:CBOW和Skip-gram
同时每种模式下都有两种训练技巧:层序softmax和负采样

7. 图像数据不足时的处理方法

从模型角度入手:

  1. 简化模型
  2. 增加惩罚项
  3. 集成学习
  4. Dropout

从数据角度入手:

  1. 做数据的旋转、平移等操作
  2. 对图像增加噪声
  3. 改变图像的亮度、清晰度等
  4. GAN

猜你喜欢

转载自blog.csdn.net/qq_19672707/article/details/100004723