6 聚类分析

物联网 2020-01-12 11:57:13 阅读次数: 0

文章目录

6.1 引言
6.2距离和相似系数

一距离
二相似系数

6.3系统聚类法

6.1 引言

现实中存大量聚类问题

聚类分析目的
- 把对象按一定规则分成若干类,类不事先给定,
- 而是根据数据特征确定,对类的数目和类的结构不作任何假定。
同类里的对象相似,不同类里的对象不相似。
聚类分析常探索寻找“自然的”或“实在的”分类,
- 这样的分类应是对所研究的问题有意义的。
聚类分析也能够用来概括数据。

判别分类和聚类分析
- 都是研究事物分类(或组)的基本法
区别:
- 组数目已知,将样品分配给事先已定义好的组(或类)之一;
- 类数目还是类本身在事先都是未知。
联系:如果组不是已有,则对组的事先了解和形成有时可通过聚类分析探索;
- 聚类分析的效果往往也可以通过由前两个(或三个)费希尔判别函数得分产生的散点图(或旋转图)从直觉上评估。

根据分类对象不同
- Q:对样品的聚类,
- R:对变量的聚类。
- 本章主Q

6.2距离和相似系数

对样品(变量)分类,样品(或变量)相似性咋度量?
两相似性度量:距离和相似系数
距离是不相似性的度量。

距离和相似系数有不同的定义,
- 这些定义与变量类型有关
间隔变量:变量用连续量表示,如长度
有序变量:变量度量时不用明确的数量表示,用等级表示,
- 如某产品分一等、二等、三等
名义变量:变量用一些类表示,
- 类之间无等级也无数量关系,
- 性别、职业、产品号

间隔变量也称定量变量,
有序和名义
- 统定性变量
- 属性变量
- 分类变量

对间隔变量,
- 距离度量样品之间相似性,
- 相似系数常度量变量间相似性
相似系数也
- 度量基于有序或名义变量的样品间相似性。
本章基于间隔变量的样品聚类分析方法

一距离

6 聚类分析.md

聚类过程中,相距较近的样品点归一类,
- 较远的样品点应属不同类。
常用的距离有如下几:

扫描二维码关注公众号，回复： 8539463 查看本文章

Minkowski距离

在这里插入图片描述

$q\ge 1$ 。
$q=1$ 时,

在这里插入图片描述

绝对值距离,形象称“城市街区”距离
- 当城市街区中位置点之间的远近用路程来度量时
- 用绝对值距离( $p=2$ )比较合适
$q=2$

在这里插入图片描述

欧氏距离,聚类分析中最常用的距离
$q=\infty$ ,

在这里插入图片描述

切比雪夫距离

欧氏距离对(大的)异常值敏感,
绝对值距离却对异常值相对不太敏感。
$q$ 越大,差值大的变量在距离计算中起的作用就大,
- 对异常值越敏感。

各变量的单位不同或变异性相差很大时
- 不直接用明氏,先对各变量的数据作标准化处理,
- 用标准化后的数据计算距离。
- 最常用的标准化处理是,令

在这里插入图片描述

$x_i$ 的样本均值和样本方差。

兰氏距离
当数据皆为正,兰氏距离

在这里插入图片描述

距离与各变量单位无关,
- 适用于高度偏斜或含异常值的数据

3.马氏距离

在这里插入图片描述

$S$ 样本协方差矩阵。
考虑各变量间相关性,与各变量单位无关
缺陷,聚类过程中的类一直变化,使类内的样本协方差矩阵(或联合协方差矩阵)难确定,除非有关于不同类的先验知识。
- 实际聚类分析中,马氏不是理想的

以上几种要求变量是间隔尺度,
- 如果变量是有序尺度或名义尺度
- 则有相应的一些定义样品之间距离和相似系数的方法。
下例给出对二值名义变量的一种简单距离定义

例6.2.1
学员的资料中得到这样六个变量
$x_1$ :性别(男,女)
$x_2$ :外语语种(英语,非英语)
$x_3$ :专业(统计,非统计)
$x_4$ :职业(教师,非教师)
$x_5$ :居住处(校内,校外)
$x_6$ :学位(硕士,学士)
两名:
$x$ =(男,英语,统计,非教师,校外,学士)
$y$ =(女,英语,非统计,教师,校外,硕士)
记配合的变量数为 $m_1$ ,不配合 $m_2$
- 则距离定义为

在这里插入图片描述

本例距离为2/3

二相似系数

对变量聚类时,常用相似系数作为变量间相似性度量。
要看大小,另一些看相似系数绝对值大小
相似系数(其绝对值)越大,变量间相似性程度越高
聚类时,较相似的变量归一类,
- 不太相似的变量属不同类。
变量 $x_i$ 与 $x_j$ 的相似系数用 $c_{ij}$
- 一般满足:

在这里插入图片描述

常用的相似系数有如下

夹角余弦
$\theta_{ij}$ 是 $R^n$ 中
变量 $x_i$ 的观测向量与
变量 $x_j$ 的观测向量间的夹角
定义俩变量相似系数为 $\cos \theta_{ij}$
- 记作 $c_{ij}(1)$

在这里插入图片描述

相关系数
变量与变量的相似系数
- 为样本相关系数 $r_{ij}$ ,记作 $c_{ij}(2)$

在这里插入图片描述

如果变量 $x_i$ 与 $x_j$ 皆已标准化了
- 则它们间的夹角余弦就是相关系数

相似系数除有时也度量样品间的相似性
距离有时也度量变量间相似性
由距离来构造相似系数总是可能的,令

在这里插入图片描述

d为第 $i$ 个样品与第 $j$ 的距离,
$c_{ij}$ 可作为相似系数,来度量样品间相似性
然而距离须满足三条件,不总能由相似系数构造。
高尔( Gower)证明
当相似系数矩阵 $(c_{ij})$ 非负定时,如令

在这里插入图片描述

则 $d_{ij}$ 满足三条件

同一批数据用不同的相似性度量,得到不同分类结果
聚类分析中,应根据实际情况选取合适的相似性度量。
经济变量分析中,常用相关系数来描述变量间的相似性程度。

6.3系统聚类法

fgh431

发布了447 篇原创文章 · 获赞 249 · 访问量 5万+

他的留言板关注

猜你喜欢

转载自blog.csdn.net/zhoutianzi12/article/details/103927431

6 聚类分析

聚类分析

聚类分析（一）什么是聚类分析

什么是聚类分析？聚类分析方法的类别

Cluster Analysis：聚类分析

R: 聚类分析

Mahout与聚类分析

聚类分析的距离计算

聚类分析评估方法

Python：层次聚类分析

python 聚类分析

Matlab之聚类分析

R型聚类分析

聚类分析matlab

高级聚类分析

聚类分析（一）介绍

让你看懂聚类分析

模糊聚类分析

机器学习——聚类分析

聚类分析初摸索

R语言聚类分析

SAS之聚类分析

ml 聚类分析

聚类分析理论介绍

聚类分析——聚类

9.聚类分析

Kmeans聚类分析

Sklearn之聚类分析

SAS聚类分析

数据挖掘-聚类分析

今日推荐

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

虽然老乡鸡开源的不是代码，但背后的原因却让人很暖心

富文本编辑器 Quill 2.0 重磅发布，特性、可靠性与开发者体验大幅提升

周排行

SVN同步出现问题

解决 nginx 出现 413 Request Entity Too Large 的问题

第一节区块链服务BaaS的总体架构以及基本模块设计的一种方案

ITeye 2013年度盘点——社区赠书书单

IDEA / git 和github 的新手使用教程史上最简单的 IntelliJ IDEA 教程史上最简单的 GitHub 教程

测试工程方法：测试用例设计综合策略

Spark优化(三)：对多次使用的RDD进行持久化

使用STM32 ST-LINK Utility 设置读保护后不能运行

exgcd 解同余方程ax=b(%n)

Android使用脚本进行多渠道打包

每日归档

更多

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)

2024-04-13(119)