1.特征抽象

特征抽象是指将原始数据抽象成算法（或模型）可以理解的数据。针对不同的数据类型，主要有如下特征抽象方法：

（1）时间戳。主要是针对具有鲜明时间序列的特征数据，将源数据中的年月日格式（或其他格式）的数据转换成以某一天为基准的数字（如2017-01-01为1）。这样可以将两个日期之间的时间段表示为两个日期数字的差值。

（2）二值类问题。二值类数据较为容易处理，比如说可以将用户性别是男还是女、用户是否购买了某件商品、用户的信用是否良好分别赋值为1和0。

（3）多值有序类问题。多值有序数据往往可以反映特征的轻重缓急程度。如考核数据中成绩特征有不合格、合格、良好、优秀等维度，信用数据中用户信用等级特征有较差、一般、良好、优秀等维度，办公事务中的待办事务特征有一般、加急、特急等维度。针对这类特征数据，可以将其不同维度的数据赋值为0、1、2、3。

2.特征重要性评估

在通过特征抽象得到一组算法（或模型）可以理解的特征数据之后，有时候还需要了解每个特征对模型训练效果的影响程度大小，进而对不同的特征赋予不同的权重，这样能够有效提高模型训练效果。常见的特征重要性评估方法有回归模型系数和信息熵。如下所示：

（1）回归模型系数评估法。此种方法主要针对线性模型。首先，对特征数据执行归一化操作，然后根据逻辑回归模型系数的大小评估各特征的重要性大小。

（2）信息熵评估法。信息熵评估法的基础来自信息增益原理，其评估特征重要性的标准是看该特征能为模型带来多少信息，带来的信息越多，则该特征越重要，为其赋予的权重越高。

特征衍生是指利用现有的特征进行某种组合，生成新的具有特定含义的特征。新生成的特征对目标列的影响大小可以通过特征重要性评估来获得。

例如，现有一份用户在某电商平台上的购物行为数据，如下表所示：

任务目标：通过上面的这份数据（1-9月的购物数据），预测在接下来的3个月（10-12月）里用户会购买哪些产品。

为了能够达成既定目标，上面已有数据所具有的特征维度是远远不够的，所以可以通过特征衍生的方式来构造一些重要的衍生特征。

特征降维是一种从高维度数据中挖掘关键字段信息的技术。在保留原始数据中大部分关键信息的前提下，还达到了降低数据维度、减少数据噪声和计算量的作用，尤其适用于图像识别和文本分析领域。常见的特征降维技术主要有以下几种：

（1）主成分分析。主成分分析（Principal Component Analysis，PCA）通过线性映射投影的方法，将高维的数据映射到了低维空间中，在投影过程中尽可能保证投影维度上的数据方差最大。

（2）线性判别分析。线性判别分析（Linear Discriminant Analysis,LDA）的基本思想是将高维的模式样本投影到最佳鉴别矢量空间，以达到抽取分类信息和压缩特征空间维数的效果。投影后保证模式样本在新的子空间中有最佳的可分离性，即有最大的类间距离和最小的类内距离。

（3）局部嵌入分析。局部嵌入分析（Locally Linear Embedding，LLE）是一种非线性降维方法，能够保持数据的流形结构。