数据挖掘中的数据

属性的类型

分类的（定性的）：标称、序数
数值的（定量的）：区间、比率

标称（`=，≠`）

例如邮政编码、雇员ID、眼球颜色、性别

序数（`>，<`）

例如矿石硬度、成绩、街道号码

区间（`+，-`）

例如日历日期、摄氏或华氏温度

比率（`×，÷`）

例如绝对温度、货币量、计数、年龄、质量、长度、电流

数据集

数据集的一般特性

维度：数据集中对象具有的对象数目
稀疏性
分辨率

遗漏值

出现遗漏值的原因

信息收集不全
某些属性不能用于所有对象

处理遗漏值的策略

删除数据对象或属性
估计遗漏值
在分析时忽略遗漏值

数据预处理

聚集

将两个或多个对象合并成单个对象
聚集是删除属性的过程，或压缩特定属性不同值个数的过程。

抽样

样本是具有代表性的
抽样方法：

简单随机抽样
1. 无放回抽样
2. 有放回抽样
分层抽样

维规约

如果维度较低，许多数据挖掘算法的效果就会更好
维规约可以使模型更容易理解

维灾难

随着数据维度的增加，许多数据分析变得非常困难，数据在它所占据的空间中越来越稀疏

相似度和相异性

简单属性的相似度和相异度

标称的

相异度

d = {\begin{cases} 0, & if x = y \\ 1, & if x \neq y \end{cases}

$d = \begin{cases} 0, & \text{if $x=y$} \\ 1, & \text{if $x\neq$y } \end{cases}$

相似度

s = {\begin{cases} 0, & if x = y \\ 1, & if x \neq y \end{cases}

$s = \begin{cases} 0, & \text{if $x=y$} \\ 1, & \text{if $x\neq$y } \end{cases}$

序数的

相似度

d = \frac{| x - y |}{(n - 1)}

$d = \frac{| x-y |}{(n-1)}$

相似度

s = 1 - d

$s=1-d$

区间或比率的

相异度

d = | x - y |

$d=|x-y|$

相似度

s = - d, s = \frac{1}{1 + d}, s = e^{- d}, s = 1 - \frac{d - d_{m i n}}{d_{m a x} - d_{m i n}}

$s=-d,\quad s=\frac{1}{1+d},\quad s=e^{-d},\quad s=1-\frac{d-d_{min}}{d_{max}-d_{min}}$

简单匹配系数

S M C = \frac{f_{11} + f_{00}}{f_{01} + f_{10} + f_{11} + f_{00}}

$SMC=\frac{f_{11}+f_{00}}{f_{01}+f_{10}+f_{11}+f_{00}}$

Jaccard系数

J = \frac{f_{11}}{f_{01} + f_{10} + f_{11}}

$J=\frac{f_{11}}{f_{01}+f_{10}+f_{11}}$

import numpy as np
import scipy.spatial.distance as dist

x = np.array([0, 0, 1, 1, 1])
y = np.array([0, 1, 0, 0, 1])

matv = np.array([x, y])
# print(matv)
ds = dist.pdist(matv, 'jaccard')
print(ds)

余弦相似度

c o s (x, y) = \frac{x \cdot y}{| | x | | \cdot | | y | |}

$cos(x,y)=\frac{x \cdot y}{||x||\cdot ||y||}$

import numpy

x=numpy.array([3,20,3.5])
y=numpy.array([-3,34,7])

dist=numpy.dot(x,y)/((numpy.linalg.norm(x))*(numpy.linalg.norm(y)))

print(dist)

欧几里得距离

d (x, y) = \sqrt{\sum_{i = 1}^{n} (x_{i} - y_{i})^{2}}

$d(x,y)=\sqrt{\sum_{i=1}^n(x_i-y_i)^2}$

import numpy

x=numpy.array([3,20,3.5])
y=numpy.array([-3,34,7])

dist=numpy.sqrt(numpy.sum(numpy.square(x-y)))

print(dist)