matlab数据挖掘学习篇-----数据质量

数据质量分析:

1.缺失值

2.异常值

3.不一致的值

4.重复数据及含有特殊符号的数据


1.1缺失值分析

使用统计分析,可以得到缺失值属性个数以及每个属性的未缺失值、缺失数与缺失率等。

处理方法:删除存在缺失值的记录、对可能值进行插补和不处理。


2.1异常值处理

(1)3原则

若数据服从正态分布,在3原则下,异常值被定义:一组测定值中与平均值的偏差超过三倍标准差的值。在正态分布的假设下,距离平均值3之外的值出现的概率为,属于极个别小概率事件。


(2)箱型图分析

异常值定义:小于或大于的值。

:下四分位数

:上四分位数

:四分位数间距,上下四分位数之差,其间包含全部观测值的一半


%% 异常值检测

% 箱型图上下界
sales=xlsread('jiang.xlsx');
q=prctile(sales,[25,75]);         %% 计算上四分位与下四分位
p_25=q(1,1);
p_75=q(1,2);
upper=p_75+1.5*(p_75-p_25);
lower=p_25-1.5*(p_75-p_25);
upper_indexes=sales(sales>upper);
lower_indexes=sales(sales<lower);
indexes=[upper_indexes;lower_indexes];
indexes=sort(indexes);

% 箱型图
figure
hold on;
boxplot(sales,'whisker',1.5,'outliersize',6);
rows=size(indexes,1);
flag=0;
for i=1:rows
    if flag==0
        text(1+0.01,indexes(i,1),num2str(indexes(i,1)));
        flag=1;
    else
        text(1-0.017*length(num2sre(indexes(i,1))),indexes(i,1),num2str(indexes(i,1)));
        flag=0;
    end
end
hold off;
disp('异常值检测完成');
    
        
  


 
 




        
  

猜你喜欢

转载自blog.csdn.net/sinat_39115040/article/details/78107034