1 引论
什么是数据挖掘
数据挖掘的过程
- 数据清理(估计60%工作)
- 数据集成(多个数据源组合)
- 数据选择(提取与任务相关的数据)
- 数据变换(变换成适合挖掘的数据模式)
- 数据挖掘
- 模式评估(兴趣度度量)
- 知识表示(可视化)
1.3 可以挖掘什么类型的数据
- 数据库数据
- 数据仓库(多为数据结构建模:数据立方体)
- 事务数据(每个记录代表一个事务)
- etc.
2 认识数据
2.1 数据对象与属性类型
数据集由数据对象组成
一个数据对象代表一个实体
2.1.1 属性
属性是一个数据字段,表示数据对象的一个特征
2.1.2 标称属性 nominal
值是一些符号或事务的名称。枚举的
2.1.3 二元属性 binary
对称:两种状态具有相同价值并且携带同样的权重,如性别男女
非对称:其状态的结果不是同等重要,如艾滋病阴阳性
2.1.4 序数属性
取值之间有意义的序或秩评定,但是相继值之间的差是未知的
2.1.5 数值属性
- 区间标度,用相同的单位尺度度量,如温度
- 比率标度属性,具有固定零点的数值属性,如开式温标
2.1.6 离散属性与连续属性
2.2 数据的基本统计描述
数据的中心趋势度量:
- 均值 mean(加权均值,截尾均值:排序去掉一部分头尾)
- 中位数 median
- 众数 mode_____mean - mode = 3 x ( mean - median)
- 中列数 midrange(最大值和最小值的平均值),若众数小于中列数为正倾斜
数据的散布: - 级差 range
- 四分位数
- 四分位数级差 Q3 - Q1
- 五数概括(min, Q1, meian, Q2, max)
- 盒图 boxplot
- 方差和标准差
2.2.3 数据的基本统计描述的图形表示
- 直方图
- 分位数图 quantile plot
- 分位数-分位数图
- 散点图 scatter plot
2.3 数据可视化
2.4 度量数据的相似性和相异性
2.4.1 数据矩阵和相异矩阵
- 数据矩阵:对象-属性矩阵
- 相异矩阵:对象-对象矩阵,存放n个对象两两之间的临近度
d(i, j) = d(j, i)
sim(i, j) = 1 - d(i, j)
数据矩阵是二模矩阵,相异矩阵是单模矩阵
2.4.2 标称属性的邻近性度量
不匹配率:d(i, j) = 1 - m / p
2.4.3 二元属性的邻近性度量
- 对称的二元相异性 (10)+(01) / 所有
- 非对称的二元相异性 (分母无00)
2.4.4 数值属性的邻近性度量
2.4.5 序数属性的邻近性度量
2.4.6 混合属性的邻近性度量
2.4.7 余弦相似性
cos(d1, d2) = (d1 d2) / ||d1|| ||d2||