《数据挖掘》技术与概念

1 引论

什么是数据挖掘

在这里插入图片描述

数据挖掘的过程

  1. 数据清理(估计60%工作)
  2. 数据集成(多个数据源组合)
  3. 数据选择(提取与任务相关的数据)
  4. 数据变换(变换成适合挖掘的数据模式)
  5. 数据挖掘
  6. 模式评估(兴趣度度量)
  7. 知识表示(可视化)

1.3 可以挖掘什么类型的数据

  • 数据库数据
  • 数据仓库(多为数据结构建模:数据立方体)
  • 事务数据(每个记录代表一个事务)
  • etc.

2 认识数据

2.1 数据对象与属性类型

数据集由数据对象组成
一个数据对象代表一个实体

2.1.1 属性

属性是一个数据字段,表示数据对象的一个特征

2.1.2 标称属性 nominal

值是一些符号或事务的名称。枚举的

2.1.3 二元属性 binary

对称:两种状态具有相同价值并且携带同样的权重,如性别男女
非对称:其状态的结果不是同等重要,如艾滋病阴阳性

2.1.4 序数属性

取值之间有意义的序或秩评定,但是相继值之间的差是未知的

2.1.5 数值属性

  • 区间标度,用相同的单位尺度度量,如温度
  • 比率标度属性,具有固定零点的数值属性,如开式温标

2.1.6 离散属性与连续属性

2.2 数据的基本统计描述

数据的中心趋势度量:

  • 均值 mean(加权均值,截尾均值:排序去掉一部分头尾)
  • 中位数 median
  • 众数 mode_____mean - mode = 3 x ( mean - median)
  • 中列数 midrange(最大值和最小值的平均值),若众数小于中列数为正倾斜
    在这里插入图片描述
    数据的散布:
  • 级差 range
  • 四分位数
  • 四分位数级差 Q3 - Q1
  • 五数概括(min, Q1, meian, Q2, max)
  • 盒图 boxplot
    在这里插入图片描述
  • 方差和标准差

2.2.3 数据的基本统计描述的图形表示

  • 直方图
  • 分位数图 quantile plot
  • 分位数-分位数图
  • 散点图 scatter plot

2.3 数据可视化

2.4 度量数据的相似性和相异性

2.4.1 数据矩阵和相异矩阵

  • 数据矩阵:对象-属性矩阵在这里插入图片描述
  • 相异矩阵:对象-对象矩阵,存放n个对象两两之间的临近度在这里插入图片描述
    d(i, j) = d(j, i)
    sim(i, j) = 1 - d(i, j)
    数据矩阵是二模矩阵,相异矩阵是单模矩阵

2.4.2 标称属性的邻近性度量

不匹配率:d(i, j) = 1 - m / p

2.4.3 二元属性的邻近性度量

  • 对称的二元相异性 (10)+(01) / 所有
  • 非对称的二元相异性 (分母无00)

2.4.4 数值属性的邻近性度量

在这里插入图片描述
- L1范数(曼哈顿距离)

2.4.5 序数属性的邻近性度量

在这里插入图片描述

2.4.6 混合属性的邻近性度量

在这里插入图片描述

2.4.7 余弦相似性

cos(d1, d2) = (d1  d2) / ||d1|| ||d2||
在这里插入图片描述

发布了57 篇原创文章 · 获赞 12 · 访问量 7702

猜你喜欢

转载自blog.csdn.net/volunteer1024/article/details/101164252