特征工程:数值特征

前言:

机器学习能够处理的特征也就只有数值类型的特征。数值型数据的特征工程技术是非常基本的,只要原始数据被转换成数值型特征,就可以用现有的模型。

要对数值型数据进行合理性检查,首先要查看它的量级。其次还要考虑特征的尺度,即特征的最大值最小值是多少?是否跨越多个量级?所有使用欧式距离的方法都对输入的尺度很敏感,因此基本都需要对特征进行标准化,以便将输出控制在期望的范围之内(换言之,如果某方法或者模型使用了欧式距离,那么对原始数据集最好进行标准化,否则特征的尺度会对最终的结果产生不好的影响)。但是基于空间分割树的模型是对尺度不敏感的。部分情况下,可以对特征进行组合形成更复杂的特征,使得输入特征更具信息量,使模型本身更简单,更容易训练和评价,这种思想称为模型堆叠

1. 标量、向量、空间

1.1 什么是标量(scalar)?

维基百科的定义:标量又称纯量,是只有大小,没有方向,可用实数表示的一个量。一个实数就是一个标量,5,-6,0.0001等都可以理解成标量。标量只是为了与向量进行区别。

1.2 什么是向量(euclidean vector)?

维基百科的定义:指一个同时具有大小和方向的几何对象。机器学习中向量又被称为标量的有序列表。

1.3 空间

亚里士多德将空间定义为事物的场所。向量位于向量空间中。

所有数据的集合都可以表示成特征空间中的“点云”

数据空间与特征空间

扫描二维码关注公众号,回复: 14815058 查看本文章

还有些内容没写,后面再说吧。。。。。。

猜你喜欢

转载自blog.csdn.net/jinhualun911/article/details/117738236