特征选择与数据预处理方法

作者:禅与计算机程序设计艺术

1.简介

1.背景介绍

机器学习技术在近几年发展迅速,应用广泛。但仍然面临着数据量过大、维度高、噪声较多等问题。为了解决这些问题,特征工程(feature engineering)方法应运而生。特征工程方法是指从原始数据中提取有效特征进行建模和分析的方法。特征工程是机器学习中的重要环节,其目的是通过对数据进行变换、组合和筛选,从而使得数据具有更好的代表性、更健壮的模型性能、更好的可解释性,提升模型效果,减少特征维度,进而提高模型的泛化能力。

特征工程方法包括三类:

  1. 数据预处理:预处理阶段主要任务是将数据清洗成适合建模的数据形式。如数据缺失值处理、异常值处理、特征标准化等;

  2. 特征选择:特征选择是根据特征的相关性或者说信息量来选择一些重要的特征。特征选择能够降低特征维度,增强模型的鲁棒性,提升模型的整体效率和效果。特征选择方法主要分为以下三种:

    • Filter-based 方法:基于统计学模型或机器学习算法来自动选取特征,对每个特征进行评价,选择其相关性较大的特征。常用的特征选择方法有基于卡方统计量的递归特征消除法(RFE)、基于信息值或信息增益的前向或后向逐步回归(Forward/Backward Selection)、基于皮尔逊相关系数的方法(Pearson Correlation Coefficients)。
    • Wrapper 方法:也称为贪心算法。它通过不断迭代计算所有可能特征集的性能指标,从而确定最优子集。常用的方法是递归二八法(Recursive Best First Search)、惩罚系数法(Lasso

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/132364099
今日推荐