学习数学建模算法与应用【数据预处理】

首先。明确一点,大数据的题目都需要进行数据预处理,哪怕给出的数据已经没有异常点,已经很完整。

缺失值、异常值的检测和处理

数据存在的问题

  • 数据预处理是数据挖掘中的重要一环,而且必不可少要更有效地挖掘出知识,就必须为其提供干净,准确,简洁的数据。
  • 现实世界中数据大体上都是不完整,不一致的脏数据,无法直接进行数据挖掘,或挖掘结果差强人意。
  • 数据的不一致:各系统间的数据存在较大的不一致性。如属性重量的单位:A数据库重量单位kg,B数据库重量单位g。噪声数据:数据中存在着错误或异常(偏离期望值),如:血压和身高为0就是明显的错误。
    在这里插入图片描述
    缺失值:
    由于实际系统设计时存在的缺陷以及使用过程中的一些人为因素,数据记录可能会出现数据值的丢失或不确定。
    在这里插入图片描述
    在这里插入图片描述
    数据预处理的任务
    数据清理(清洗)
    去掉数据中的噪声,纠正不一致。
    数据集成
    将多个数据源合并成一致的数据存储,构成一个完整的数据集,如数据仓库。例如:将同描述同一个公司的不同表格合并成一个表格。
    数据归约(消减)
    通过聚集、删除几余属性或聚类等方法来压缩数据
    数据变换(转换)
    将一种格式的数据转换为另一格式的数据(如规范化)
    在这里插入图片描述
    在这里插入图片描述

数据归一化

数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,数值间的差别可能很大,不进行处理可能会影响到数据分析的结果,为了消除指标之间的量纲和大小不一的影响,需要进行数据标准化处理将数据按照比例进行缩放,使之落入一个据标准化处理,将数据按照比例进行缩放,使之落入一个特定的区域,从而进行综合分析。如将工资收入属性值映射到[-1,1]或者[0,1]之间
在这里插入图片描述

数据清洗

数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,处理缺失值、异常值等。

缺失值处理

处理缺失值的方法可分为三类: 删除记录、数据插补和不处理。其中常用的数据插补方法见下表。
在这里插入图片描述
在这里插入图片描述
了解
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

异常值处理

在这里插入图片描述
怎样判断异常值
在这里插入图片描述
箱线图
在这里插入图片描述
计算n维数据集中所有样本间的测量距离,如果样本S中至少有一部分数量为p的样本到S的距离比d大,那么样本S是数据集S中的一个噪声数据。
在这里插入图片描述
在这里插入图片描述
根据表中结果,
可选择S1、S4、S6作为噪声数据。(因为它们的p值大于等于3)

特征工程

特征工程就是从原始数据提取特征的过程,这些特征可以很好地描述数据并且利用特征建立的模型在未知数据上的性能表现可以达到最优(或者接近最佳性能)。特征工程一般包括特征使用、特征获取、特征处理、特征选择和特征监控。
“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而己”
特征工程的处理流程为首先去掉无用特征,接着去除冗余的特征,如共线特征,并利用存在的特征、转换特征、内容中的特征以及其他数据源生成新特征,然后对特征进行转换(数值化、类别转换、归一化等),最后对特征进行处理(异常值、最大值、最小值,缺失值等), 以符合模型的使用。 简单来说,特征工程的处理一般包括数据预处理特征处理特征选择等工作,而特征选择视情况而定,如果特征数量较多,则可以进行特征选择等操作。
数据预处理一定要做,特征选择可以不做

特征选择

国赛不一定能用到,了解即可
在这里插入图片描述
过滤法
如果不同的属性之间有很强的相关性,保留极大无关组即可
包装法
主要运用在机器学习,深度学习方面
在这里插入图片描述
x2,x3有明显的线性关系,此时可以删除一个。
可以用PCA主成分分析法
主成分分析又称主分量分析,由皮尔逊在1901年首次引入,后来由霍特林在1933年进行了发展。主成分分析是一种通过降维技术把**多个变量化为少数几个主成分(即综合变量)的多元统计方法,这些主成分能够反映原始变量的大部分信息,通过表示为原始变量的线性组合,为了使得这些主成分所包含的信息互不重叠,要求各主成分之间互不相关。主成分分析在很多领域都有广泛的应用一般来说,当研究的问题涉及多个变量,并且变量相关性明显,即包含的信息有所重叠时,可以考虑用主成分分析的方法,这样更容易抓住事物的主要矛盾,使问题简化。
在这里插入图片描述
二维用线可以表示,三维用面可以表示相关度。
不同的点在线上投影,不能使大量的特征丢失
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
三维也是一样,用协方差表示相关度
在这里插入图片描述
在这里插入图片描述

举例分析

使用MATLAB将六个属性,转换为三个综合属性,并且需要对得到的新属性进行解释。
在这里插入图片描述
在这里插入图片描述
例二
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
主成分分析法在后面会继续学习,这里只做简单介绍。

猜你喜欢

转载自blog.csdn.net/Luohuasheng_/article/details/128582147