数据挖掘

1 引论

什么是数据挖掘

数据挖掘的过程
1.3 可以挖掘什么类型的数据

2 认识数据

2.1 数据对象与属性类型

2.1.1 属性
2.1.2 标称属性 nominal
2.1.3 二元属性 binary
2.1.4 序数属性
2.1.5 数值属性
2.1.6 离散属性与连续属性

2.2 数据的基本统计描述

2.2.3 数据的基本统计描述的图形表示

2.3 数据可视化
2.4 度量数据的相似性和相异性

2.4.1 数据矩阵和相异矩阵
2.4.2 标称属性的邻近性度量
2.4.3 二元属性的邻近性度量
2.4.4 数值属性的邻近性度量
2.4.5 序数属性的邻近性度量
2.4.6 混合属性的邻近性度量
2.4.7 余弦相似性

1 引论

什么是数据挖掘

在这里插入图片描述

数据挖掘的过程

数据清理（估计60%工作）
数据集成（多个数据源组合）
数据选择（提取与任务相关的数据）
数据变换（变换成适合挖掘的数据模式）
数据挖掘
模式评估（兴趣度度量）
知识表示（可视化）

1.3 可以挖掘什么类型的数据

数据库数据
数据仓库（多为数据结构建模：数据立方体）
事务数据（每个记录代表一个事务）
etc.

2 认识数据

2.1 数据对象与属性类型

数据集由数据对象组成
一个数据对象代表一个实体

2.1.1 属性

属性是一个数据字段，表示数据对象的一个特征

2.1.2 标称属性 nominal

值是一些符号或事务的名称。枚举的

2.1.3 二元属性 binary

对称：两种状态具有相同价值并且携带同样的权重，如性别男女
非对称：其状态的结果不是同等重要，如艾滋病阴阳性

2.1.4 序数属性

取值之间有意义的序或秩评定，但是相继值之间的差是未知的

2.1.5 数值属性

区间标度，用相同的单位尺度度量，如温度
比率标度属性，具有固定零点的数值属性，如开式温标

2.1.6 离散属性与连续属性

2.2 数据的基本统计描述

数据的中心趋势度量：

均值 mean（加权均值，截尾均值：排序去掉一部分头尾）
中位数 median
众数 mode_____mean - mode = 3 x ( mean - median)
中列数 midrange（最大值和最小值的平均值），若众数小于中列数为正倾斜

数据的散布：
级差 range
四分位数
四分位数级差 Q3 - Q1
五数概括（min, Q1, meian, Q2, max）
盒图 boxplot
方差和标准差

2.2.3 数据的基本统计描述的图形表示

直方图
分位数图 quantile plot
分位数-分位数图
散点图 scatter plot

2.3 数据可视化

2.4 度量数据的相似性和相异性

2.4.1 数据矩阵和相异矩阵

数据矩阵：对象-属性矩阵
相异矩阵：对象-对象矩阵，存放n个对象两两之间的临近度
d(i, j) = d(j, i)
sim(i, j) = 1 - d(i, j)
数据矩阵是二模矩阵，相异矩阵是单模矩阵

2.4.2 标称属性的邻近性度量

不匹配率：d(i, j) = 1 - m / p

2.4.3 二元属性的邻近性度量

对称的二元相异性 (10)+(01) / 所有
非对称的二元相异性（分母无00）

2.4.4 数值属性的邻近性度量

在这里插入图片描述
- L1范数（曼哈顿距离）

2.4.5 序数属性的邻近性度量

在这里插入图片描述

2.4.6 混合属性的邻近性度量

在这里插入图片描述

2.4.7 余弦相似性

cos(d1, d2) = (d1  d2) / ||d1|| ||d2||
在这里插入图片描述

volunteer1024

发布了57 篇原创文章 · 获赞 12 · 访问量 7702

私信关注

《数据挖掘》技术与概念

数据挖掘

1 引论

什么是数据挖掘

数据挖掘的过程

1.3 可以挖掘什么类型的数据

2 认识数据

2.1 数据对象与属性类型

2.1.1 属性

2.1.2 标称属性 nominal

2.1.3 二元属性 binary

2.1.4 序数属性

2.1.5 数值属性

2.1.6 离散属性与连续属性

2.2 数据的基本统计描述

2.2.3 数据的基本统计描述的图形表示

2.3 数据可视化

2.4 度量数据的相似性和相异性

2.4.1 数据矩阵和相异矩阵

2.4.2 标称属性的邻近性度量

2.4.3 二元属性的邻近性度量

2.4.4 数值属性的邻近性度量

2.4.5 序数属性的邻近性度量

2.4.6 混合属性的邻近性度量

2.4.7 余弦相似性

猜你喜欢