数据类型:
离散型数据:记录不同类别个体的数目所得到的数据又称计数数据,所以有这些数据全部都是整数,而且不能再细分,也不能进一步提高他们的精确度。
连续型数据:变量可以在某个范围内取任一数,即变量的取值可以是连续的,如,长度、时间、质量值等,这类整数通常是整数,含有小数部分。
注:只要记住一点,离散型是区间内不可分,连续型是区间内可分
特征抽取:
特征抽取针对非连续型数据
特征抽取对文本等进行特征值化
注:特征值化是为了计算机更好的去理解数据
特征处理:
特征处理的重要性: 确保每个特征都对结果的影响程度相同
通过特定的方法将数据转化为算法要求的数据
包含:归一化:
标准化:
注:一般用标准化对数据进行特征处理,标准化相比归一化具有能减小异常值对结果的影响