聚类检测异常点 - 代码天地

聚类检测异常点

其他 2018-08-04 09:17:41 阅读次数: 0

主要思想：

用聚类方式划分数据为不同的簇，计算簇内每个点对于簇中心的相对距离（相对距离 = 点到簇中心的距离/这个簇所有点到簇中心距离的中位数），可视化后，检测出相对距离较大的点。

注意是每个点到簇中心的距离的中位数，不是平均值，因为异常值对中位数的影响很小，几乎可以忽略，但是对均值的影响很大。

from sklearn import preprocessing
from sklearn.cluster import KMeans
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
plt.style.use('ggplot')


data = pd.read_excel(r'C:\Users\Administrator\Desktop\consumption_data.xls',index_col = 'Id')

data_scale = preprocessing.scale(data)#处理后需要转为dataframe，或者直接手动求均值、方差转换

model = KMeans(n_clusters = 3,max_iter = 500)#分为3类
model.fit(data_scale)

data_scale = pd.DataFrame(data_scale,index = data.index)
data_scale['labels'] = model.labels_

norm = []
for i in range(3):
    norm_tmp = data_scale[['R','F',"M"]][data_scale['labels']==i]-model.cluster_centers_[i]
    norm_tmp = norm_tmp.apply(np.linalg.norm,axis = 1)
    norm.append(norm_tmp/norm_tmp.median())
data_scale.columns = ['R','F','M','labels']

norm = pd.concat(norm)#合并

norm.plot(style = 'ro')#可视化

可见相对距离<2的，为正常点，可以取相对距离的阈值为2

discrete_points = norm[norm>2]
discrete_points.index

>>>
Int64Index([30, 226, 670, 39, 252, 339, 484, 525, 935], dtype='int64', name='Id')

根据阈值删选出异常值，后续可以根据异常值的index删除。

猜你喜欢

转载自blog.csdn.net/weixin_40300458/article/details/81318381

聚类检测异常点

分类-回归-聚类-异常检测

KMS基于聚类的异常检测

2018.11.28——DBSCAN用于聚类、异常点检测

聚类算法也可以异常检测？DBSCAN算法详解。

2018异常检测综述——基于统计学、邻近度、密度、聚类的异常检测方法

[异常检测]B. 智能运维 --- 质量保障 --- 异常检测 --- 指标聚类

异常点检测算法小结 BIRCH聚类算法原理

0043-机器学习-利用Kmeans聚类实现异常值检测

异常检测之基于聚类的局部异常因子检测算法（CBLOF）详细解释且配上代码运行实例

使用DBSCAN进行圆环聚类检测

pcl点云聚类方法

PCL 点云欧式聚类

点云聚类与区域边界估计

关键点聚类对象识别

PCL Kmeans点云聚类

PCL 点云组件聚类

PCL 点云高斯混合聚类

异常检测算法演变及学习笔记时间序列分析中预测类问题下的建模方案机器学习中的聚类算法演变及学习笔记

kmeans聚类，8个点分为三类

高斯分布检测异常点

基于两步聚类的离群点检测

光流加聚类检测运动目标

基于社区检测的网络时间序列聚类

《基于序列聚类的相似代码检测算法》

K-means-：在聚类时发现异常

SLS机器学习最佳实战：日志聚类+异常告警

k-means算法处理聚类标签不足的异常

OPTICS：通过点排序识别聚类结构的密度聚类算法

离群点（孤立点、异常值）检测方法

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)