R语言数据可视化-- boxplot 异常点选取原理讲解 - 代码天地

R语言数据可视化-- boxplot 异常点选取原理讲解

其他 2018-07-10 22:13:37 阅读次数: 0

本次详解boxplot原理，同时需要使用到《机械学习与R语言》中的数据包‘usedcars.csv’。可以到网上自行搜索下载or到我github里下载：https://github.com/HAI2018/MLwR/ 到第二版第二章，点进usedcars.csv -> 再点击 raw -> 右键另存为

Boxplot一直都是我们对数据异常点观测的一个简单且直接有效的方式，虽然它并不能详细告诉我们哪些点是异常点以及异常点的详细数据。但是boxplot却总能让我们很直观地了解数值变量的中心和分散程度。如下例所示：

读取usedcars.csv文档后，我们尝试画一下boxplot：

usedcars <- read.csv("usedcars.csv", stringsAsFactors = FALSE)
boxplot(usedcars$price, main="Boxplot of Used Car Prices",
        ylab="Price ($)", las=T)

画出的是price的boxplot图:

大家都知道，从下到上分别是MIN，Q1, MEDIAN, Q3, MAX. 而掉在外面的点便是outliers，也就是异常点。这些点是怎么来的？

既然最下和最上已经是最小和最大点了，为什么还会有点比最小还小，最大还大？这便要涉及到R里面boxplot内置逻辑了，这也是boxplot为什么可以区别异常点的原因。

在boxplot的function里面其实还有许多内置变量，我们可以通过？boxplot查询。总体而言，R中boxplot outliers的判断是根据Q1- 1.5（Q3-Q1）[记为值A]以及Q3+ 1.5（Q3-Q1）[记为值B]。 Q3-Q1 便是四分位距离，可以使用IQR（）function 计算，如：

IQR(usedcars$Price)

比值A还小，或者比值B还大的值，便显示为异常值。当然我们可以通过调整方程中的arguement来改变AB值的设定，如：

boxplot(usedcars$price, main="Boxplot of Used Car Prices",
        ylab="Price ($)",las=T，range=1)

如上图，异常值变多了，因为我们改变了range，设为range=1（默认为1.5），显然这个改变会增加异常值。

如果我们不需要表现异常值（尽管这种情况是很少见到），可以通过如下设定：

boxplot(usedcars$price, main="Boxplot of Used Car Prices",
        ylab="Price ($)",las=T,outline=F)

可见，异常点消失了。

猜你喜欢

转载自blog.csdn.net/clintlong/article/details/80970182

R语言数据可视化-- boxplot 异常点选取原理讲解

R boxplot

R语言处理离群值的常见策略、散点图scatter plot、箱图boxplot可视化（数据中包含异常值，一维异常箱图可视化、二维异常散点图可视化）、异常值过滤之后可视化（过滤后的数据分布更合理充分

R语言可视化箱图（box plot）、可视化分组箱图（boxplot by group）、查看boxplot函数返回的统计数据

python可视化---箱线图boxplot()

R语言ggplot2可视化时间序列数据：ggplot2可视化在时间轴上添加按月的箱图（boxplot）

matplotlib可视化之箱线图:plt.boxplot()

R语言中的箱图介绍 boxplot

R语言可视化箱线图（boxplot）:不同分组（条件）的对比箱线图、组合不同水平（即交互项）下的箱线图

R语言使用ggpubr包的ggboxplot函数可视化分组箱图（boxplot）并添加抖动数据点、生成符合自定义要求的仿真数据

R语言使用ggpubr包的ggboxplot函数可视化分组箱图（boxplot）并添加抖动数据点、使用rremove函数移除图例标题title

R语言使用ggpubr包的ggboxplot函数可视化分组箱图（boxplot）并添加抖动数据点、使用rremove函数移除X轴标签内容

R语言入门：对于boxplot()箱型图的直观理解

R语言中使用boxplot函数绘制箱线图

R语言改变ggplot2 Boxplot的颜色

R语言可视化分面图、多变量分组嵌套多水平t检验、可视化多变量分组嵌套多水平分面箱图（faceting boxplot）并添加显著性水平

R语言可视化箱图（box plot）、可视化分组箱图（boxplot by group）、使用segments函数为箱图添加均值线条（add mean lines）

Python数据预处理之异常值的处理——【自定义的three_sigma()函数、boxplot()方法】

R语言使用ggpubr包的ggboxplot函数可视化分组箱图（boxplot）并添加抖动数据点、使用stat_compare_means函数添加假设检验结果

R语言可视化分面图、单变量分组多水平t检验并指定参考水平、可视化单变量分组多水平分面箱图（faceting boxplot）并添加显著性水平、指定显著性参考水平、只显示相对显著性删除vjust横线

R语言ggplot2可视化：直方图显示数据集中在哪里，并在视觉上突出异常值和异常值

R语言ggpubr包ggsummarystats函数可视化分组分面（faceting boxplot）箱图(分组颜色、jitter)并在X轴标签下方添加分组分面对应的统计值（样本数、中位数、iqr)

seaborn绘制barplot、scatterplot、boxplot、boxplot、distplot

seaborn使用boxplot函数可视化箱图并基于分组均值或者中位数进行箱图降序（descending）排序（Sort Boxplots in Descending Order)

R语言与数据可视化-180708

R语言与数据可视化-180707

R语言与数据可视化-180706

R语言与数据可视化-180705

R语言数据可视化部分

R语言——数据可视化

今日推荐

手把手教你用 LangChain 实现大模型 Agent

外星人入侵（python）

超全的免费chatGPT列表【建议收藏】

52.2k star! 自己部署gpt4free, 免费使用各种GPT

2024年（第十届）全国大学生统计建模大赛优秀论文解析——中国经济发展与碳排放库兹涅茨曲线的验证研究

【自动驾驶技术】自动驾驶汽车AI芯片汇总——NVIDIA篇

7个免费的ChatGPT网站，给大家送上

Angular v18 正式发布！

【VMware】 vCenter Converter standalone 6.6.0正式版下载

开源日报 | Angular v18；大模型价格战下的推理优化；Mistral AI以开源模型瞄准美国市场；硅谷有自己的鲁迅

数学建模Matlab之数据预处理方法

充电桩---ISO15118协议详细介绍

周排行

慧测学习课件

Mscordacwks.dll/SOS.dll 调试归档

关于深度学习人工智能模型的探讨（二）（7）

Stop Using the text-indent:-9999px

Least Common Multiple（HDU - 1019 ）

Comparator接口的使用方法--例子

修改framework Camera的API,旋转摄像头

机器学习时代的“大数据+”：数据平台的设计与搭建

vue 项目部署到nginx

webstorm 常用插件集合

每日归档

更多

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)