R语言实验：数据探索 - 代码天地

R语言实验：数据探索

其他 2018-11-05 06:20:20 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/m0_37345402/article/details/83215363

数据介绍

使用银行对资产进行评估的数据bank-data.csv，数据里有12个属性，分别是id,age,sex,region,income,married,children, car, save_act, current_act, mortgage,pep.共600个实例。
本测试集中将pep属性作为分类的目标类别。

实验3 数据探索与预处理

1.数据探索

数据质量分析

缺失值分析

计算缺失值个数。

计算缺失率。

> setwd("G:/!！aaclassnew/R语言/20181011")
> saledata=read.csv(file = "bank-data.csv",header = TRUE)
> sum(!complete.cases(saledata))
[1] 6
> mean(!complete.cases(saledata))
[1] 0.01

异常值分析

简单统计量：计算最值。

箱形图分析。

> setwd("G:/!！aaclassnew/R语言/20181011")
> saledata=read.csv(file = "bank-data.csv",header = TRUE)
> sp=boxplot(saledata$income,boxwex=0.7)
> title("银行异常值检测")
> xi=1.1
> sd.s=sd(saledata[complete.cases(saledata),]$income)
> mn.s=mean(saledata[complete.cases(saledata),]$income)
> points(xi,mn.s,col="red",pch=18)
> arrows(xi,mn.s-sd.s,xi,mn.s+sd.s,code = 3,col = "blue",angle = 75,length = .1)

数据特征分析

分布分析：画出频率直方图。

统计量分析：对于连续属性值，求出均值以及标准差。

> dataa=saledata[,5]
> dataa

> hist(dataa,xlab = "Weight",col = "blue",border = "red",ylim = c(0,20),breaks = 2000)

> sales=saledata[,5]
> mean_=mean(sales,na.rm = T)
> mean_
[1] 27514.46
> std_=sqrt(var(sales,na.rm = T))
> std_
[1] 12821.21

2.数据预处理

数据清洗

缺失值处理：删除法。

> n=sum(is.na(dataa))
> n
[1] 6
> sub=which(is.na(dataa))
> sub
[1] 456 457 458 459 460 461
> dataa1=dataa[-sub]
> dataa1

数据集成

去除无用属性：删除“ID”属性。

> data2=saledata[,c(2:12)]
> data2

数据变换

离散化：把“Children”属性转换成分类型的两个值“YES”和“NO”；把income属性按照节点12640.3；17390.1；29622；43228.2离散化。

> for(i in 1:600)
+ {
+ if(saledata[i,7]>0){saledata[i,7]="YES";}
+ else {saledata[i,7]="NO";}
+ }
> saledata

> saledata=read.csv('bank-data.csv',he=T)
> v=sort(saledata[,5])
> v

猜你喜欢

转载自blog.csdn.net/m0_37345402/article/details/83215363

R语言实验：数据探索

【R语言实验】R语言向量、矩阵和数据框的创建

R语言实验报告

R语言实验汇总----助力高绩点

【R语言实验】R语言多元线性回归模型中变量的选择和诊断分析

【R语言实验】R语言多元线性回归模型的建立和检验过程

R语言实战

R语言- 实验报告 - 数据清洗

C语言实验

R语言学习（二）数据分析数据探索

空间数据分析与R语言实践

用R语言实现数据离散化

R语言实战（二）创建数据集

R语言实现NetCDF气象数据的逐月解析提取

R语言探索BRFSS数据可视化

《R语言实战》学习记录：R语言介绍及创建数据集

【数据库系统设计】SQL语言实验

数据结构实验C语言实现版

数据科学与python语言实验——NumPy数值计算基础

基于C语言实现的DataLab数据表示实验

R语言实战-云图

R语言实用函数

R语言实现多线性回归模型预测时间序列数据 MLR models in R

C语言实验——余弦

汇编语言实验

C语言实验——整除

c语言实验一

c语言实验二

C语言实验五

C语言实验——素数

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

周排行

面试爱奇艺，竟然挂在第5轮……

scala方法和函数的区别

NYIST--2018大一新生第一次周赛题解

java如何通过client客戶端http实现get/ post请求传递json参数到restful 服务接口

RabbitMQ 队列类型

2018-2019-1 20165311 20165329 20165334 实验一开发环境的熟悉

iOS打包工具配置相应的文件路径一键打包到指定位置

【每日一题】替换空格

【转载】FPGA配置方式

旅行青蛙

每日归档

更多

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)