数据处理之异常值分析、处理（R语言） - 代码天地

数据处理之异常值分析、处理（R语言）

其他 2018-08-13 17:08:32 阅读次数: 0

异常值的分析方法

1、简单统计量分析

做一个描述性统计，进而查看哪些数据不合理。最常用的是最大值和最小值，如年龄的最大值199，则存在异常。

2、3σ原则

针对服从正态分布的数据，

$P(|x-\mu |>3\sigma )\leqslant 0.003$

3、箱形图分析

首先，读取数据集，用sum()，mean()函数来分别获取缺失样本数、缺失比例。

saledata <- read.csv(file="catering_sale.csv",header = TRUE)

sum(complete.cases(saledata)) #TRUE为1，FALSE为0。结果为非缺失样本数

sum(!complete.cases(saledata)) #结果为缺失样本数

mean(!complete.cases(saledata)) #缺失比例

saledata[!complete.cases(saledata),] #获取缺失值记录

然后，进行箱形图分析

sp <- boxplot(saledata$销量,boxwex = 0.7) #画出箱形图，boxwex参数控制箱形的宽度

sd.s <- sd(saledata[complete.cases(saledata),]$销量) #结果是完整样本的标准差
mn.s <- mean(saledata[complete.cases(saledata),]$销量) #结果是完整样本的均值

points(1.1,mn.s,col="red",pch=18) #标出均值点，其中1.1为x轴坐标

arrows(xi,mn.s-sd.s,xi,mn.s+sd.s,code=3,col="pink",angle=75,length=.1) #画出箭头，从均值点到上、下标准差的距离

text(rep(c(1.05,0.95),length(sp$out)/2),sp$out,sp$out,col="red") #标出异常点的值，在点的左边、右边（1.05,0.95）各标示一半。其中sp$out是所有异常值点

最后，结合具体业务，判定哪些点为正常值，哪些点为异常值。

异常值的处理方法：

1、删除

2、视为缺失值，进行补数

3、平均值修正，可用前后两个观测的平均值修正。

4、不处理

猜你喜欢

转载自blog.csdn.net/zjlamp/article/details/81292706

数据处理之异常值分析、处理（R语言）

数据处理之异常值处理

数据处理之异常值检测

R语言数据异常值处理

数据处理—异常值处理

R语言︱异常值检验、离群点分析、异常值处理

数据预处理之异常值处理

数据分析之异常值检测与处理

python数据分析实战之异常值处理

数据异常值分析和处理

数据处理之缺失值处理（R语言）

数据清洗之异常值处理

数据预处理之异常值检测

R语言10-绘图异常值处理(限制轴)

基于R语言的缺失值及异常值处理

数据处理之主成分分析（R语言）

数据处理之连续数据离散化（R语言）

数据处理之标准化（R语言）

R语言开发之MySQL数据处理操作

R语言数据处理之创建新变量

22.数据预处理之异常值处理

数据处理：2.异常值处理 & 数据归一化

R语言日期数据处理

R语言___数据处理1向量

R语言数据处理常用函数

R语言数据处理简述

R语言数据处理 ARIMA预测

【Python数据分析基础】: 异常值检测和处理

数据分析学习总结笔记04：异常值处理

Python数据分析基础: 异常值检测和处理

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)