数据质量分析:
1.缺失值
2.异常值
3.不一致的值
4.重复数据及含有特殊符号的数据
1.1缺失值分析
使用统计分析,可以得到缺失值属性个数以及每个属性的未缺失值、缺失数与缺失率等。
处理方法:删除存在缺失值的记录、对可能值进行插补和不处理。
2.1异常值处理
若数据服从正态分布,在3原则下,异常值被定义:一组测定值中与平均值的偏差超过三倍标准差的值。在正态分布的假设下,距离平均值3之外的值出现的概率为,属于极个别小概率事件。
(2)箱型图分析
异常值定义:小于或大于的值。
:下四分位数
:上四分位数
:四分位数间距,上下四分位数之差,其间包含全部观测值的一半
%% 异常值检测
% 箱型图上下界
sales=xlsread('jiang.xlsx');
q=prctile(sales,[25,75]); %% 计算上四分位与下四分位
p_25=q(1,1);
p_75=q(1,2);
upper=p_75+1.5*(p_75-p_25);
lower=p_25-1.5*(p_75-p_25);
upper_indexes=sales(sales>upper);
lower_indexes=sales(sales<lower);
indexes=[upper_indexes;lower_indexes];
indexes=sort(indexes);
% 箱型图
figure
hold on;
boxplot(sales,'whisker',1.5,'outliersize',6);
rows=size(indexes,1);
flag=0;
for i=1:rows
if flag==0
text(1+0.01,indexes(i,1),num2str(indexes(i,1)));
flag=1;
else
text(1-0.017*length(num2sre(indexes(i,1))),indexes(i,1),num2str(indexes(i,1)));
flag=0;
end
end
hold off;
disp('异常值检测完成');