学习笔记（二）数据挖掘概念与技术

1中心趋势度量：均值(mean)、中位数、众数

截尾均值：丢掉高低极端值后的均值

加权算术均值（加权平均）: $\bar{x}=\sum_{i=1}^{N}w_{i}x_{i}/\sum_{i=1}^{N}w_{i}=w_1{}x_1{}+w_2{}x_2{}+...+w_{N}x_{N}/w_1{}+w_2{}+...+w_N{}$

中位数(median)是有序数据的中间值，对于非对称数据是数据中心更好的度量。

用插值法计算中位数的近似值：median= $L_{1}+(N/2-(\sum freq )_{l}/freq_{median})width$ 其中 $L_{1}$ 是中位数区间的下界，N是整个数据集中值的个数， $(\sum freq )_{l}$ 是低于中位数区间的所有区间的频率和， $freq_{median}$ 是中位数区间的频率，而width是中位数区间的宽度。

众数（mode）：集合中出现最频繁的值，可以对定性和定量属性确定众数。（可能出现多个众数）

对于适度倾斜（非对称）的单峰数值数据，有经验关系： $mean-mode\approx 3\times (mean-median)$ ,就是说如果均值和中位数已知，则适度倾斜的单峰频率曲线的众数容易近似计算。

中列数（midrange）:是数据集的最大和最小值的平均值 $(max+min)/2$ 。具有完全对称的数据分布的单峰频率曲线中，均值、中位数、众数相同

2度量数据散布：极差、四分位数、方差、标准差和四分位数极差

（1）极差：最大值与最小值之差。分位数：取自数据分布的每隔一定间隔上的点，把数据划分成基本上大小相等的连贯集合。2-分位数对应于中位数，4-分位数是3个数据点，把数据划分成4个相等的部分。第1和3个四分位数之间的距离是散布的一种简单度量，给出数据中间一半所覆盖的范围称为四分位数极差（IQR）=Q3-Q1

（2）五数概括、盒图与离群点

识别可疑离群点的通常规则是，挑选落在第三个四分位数之上或者Q1之下至少1.5*IQR处的值。

五数概括：minimum,Q1,Median.Q3,maximum

boxplot(盒图)：端点一般在四分位数上，使得盒的长度是四分位数极差IQR，中位数用盒内线做标记，胡须延伸到min和max的观测值。

方差和标准差：指出数据的散布（离散）程度，越小说明数据观测趋于均值，越大离散程度越大。 $\delta^{^{2}}=(1/N)\sum_{i=1}^{N}(x_{i}-\tilde{x})^2=(1/N*\sum_{i=1}^{n}x_{i}^{2})^2-\bar{x}^2$ 注意：一个观测一般不会远离均值超过标准差的数倍，精准的说，最少 $（1-1\div k^2）\ast 100%$ $(1-\frac{1}{k^2})*100$ %的观测离均值不超过k个标准差。因此，标准差是数据集发散的很好指示器。

3数据统计描述的图形显示：分位数图、分位数-分位数图、直方图和散点图（涉及两个属性，前三个只关于一个属性）

分位数图：是一种观察单变量数据分布的简单有效的方法。在分位数图中xi对应fi画出， $f_{i}=(i-0.5)/N$ 这些数从1/2N到1-1/2N，以相同的步长1/N递增。

分位数-分位数图（q-q图）：对着另一个对应的分位数，绘制一个单变量分布的分位数。使得用户可以观察从一个分布到另一个分布是否有漂移。

直方图：

散点图：去定两个数值变量之间看上去是否存在联系、模式或趋势的最有效的图形方法之一。

4数据可视化：旨在通过图形表示清晰有效的表达数据。

（1）基于像素的可视化技术：可视化一维值，使用像素反映该维的值。对于宽窗口，已先行方法安排数据记录填充窗口的效果可能不好。解决方法：空间填充曲线（希尔伯特曲线、格雷码、z-曲线）。窗口不必是矩形的。例如，圆弓分割技术。

（2）几何投影可视化技术：首要挑战是设法解决如何在二维上显示可视化高维空间。，可以增加第三维。三维散点图同样也可以使用颜色增加4维数据点。超过4维，散点图矩阵是二维散点图的n*n网格，提供每个维与所有其他维的可视化。平行坐标（流行）可以处理更高的维度，绘制n个等距离、互相平行的轴，每维一个。数据记录用折线表示，与每个轴在对应于相关维值的点上相交。

（3）基于图符的可视化技术：使用少量图符表示多维数据值。（切尔诺夫脸：已经发现，眼睛大小和眉毛的歪斜是重要的。人物线条画：两个维被映射到显示轴，其余的被映射到四肢角度和长度。----》人口普查）

（4）层次可视化技术：把所有维划分成子集（子空间），这些子空间按层次可视化。例如：“世界中的世界（Worlds-within-Worlds）”又称n-Vision，以6维数据可视化为例，选定某三维数据为固定值，使用世界（三维图）对另外三个维度可视化。可以在外世界中交互的改变的内世界原点的位置，然后观察内世界的变化结果。

（5）可视化复杂对象和关系:标签云是用户产生的标签统计量的可视化。

5度量数据的相似性和相异性：簇是数据对象的集合，使得同一个簇中的对象互相相似，而与其他簇中的对象相异。相似性和相异性都称邻近性。

（1）数据矩阵（二模two-mode矩阵）与相异性矩阵（单模one-mode矩阵）：数据矩阵(对象-属性结构)：这种数据结构用关系表的形式或n*p矩阵存放n个数据对象。 $\begin{bmatrix} x_{11}&...& x_{1f}& ...&x_{1p} \\ ...&... & ... & ...&...\\ x_{i1} & ...&x_{if} &... &x_{ip} \\ ...& ... & ... & ... &... \\ x_{n1} &... &x_{nf} &...& x_{np} \end{bmatrix}$ 每一行对应着一个对象，在记号中，我们可能使用f取遍p个属性的下标。相异性矩阵（对象-对象矩阵）：存放n个对象两两之间的邻近度，通常用一个n*n矩阵表示： $\begin{bmatrix} 0& & & & \\ d(2,1)&0 & & & \\ d(3,1)&d(3,2) &0 & & \\ ...& ...&... & & \\ d(n,1)&d(n,2) &... &... &0 \end{bmatrix}$ 其中d(i,j)是对象i和对象j之间的相异性或“差别”的度量，一般是非负数，两个对象越相似越接近0越不同该值越大。相似性度量： $sim(i,j)=1-d(i,j)$

（2）标称属性的邻近性度量:标称属性可以取两个或多个状态。两个对象i和j之间的相异性可以根据不匹配率来计算： $d(i,j)=(p-m)/p$ 其中，m是匹配的数目，而p是刻画对象的属性总数。所以， $sim(i,j)=1-d(i,j)=m/p$ （3）二元属性的邻近性度量：给出一个具有相同权重的二元属性列联表 $\bigl(\begin{smallmatrix} && j & & \\ & & 1 & 0 &sum \\ i&1 &q &r &q+r \\ &0&s & t &s+t \\ & sum& q+s &r+t &p \end{smallmatrix}\bigr)$ 对称的二元相异性 $d(i,j)=\frac{r+s}{q+r+s+t}$ 非对称的二元相异性，其中负匹配（两个都取值为0）数t被认为是不重要的，被忽略有 $d(i,j)=\frac{r+s}{q+r+s}$ 可以基于相似性来度量，非对称的二元相似性 $sim(i,j)=\frac{q}{q+r+s}=1-d(i,j)$ 被称为Jaccard系数。

（4）数值属性的相异性：欧几里得距离、曼哈顿距离和闵可夫斯基距离。最流行的距离度量是欧几里得距离（“乌鸦飞行”）令i= $(x_{i1},x_{i2},...x_{ip})$ 和j= $(x_{j1},x_{j2},...x_{jp})$ 是两个被p数值属性描述的对象。对象i和j之间的欧几里得距离定义为： $d(i,j)=\sqrt{(x_{i1}-x_{j1})^2+(x_{i2}-x_{j2})^2+...(x_{ip}-x_{jp})^2}$ 曼哈顿（城市块）距离 $d(i,j)=\left | x_{i1}-x_{j1} \right |+\left | x_{i2}-x_{j2} \right |+...+\left | x_{ip}-x_{jp} \right |$ 这两个距离都满足如下性质：非负性、同一性、对称性、三角不等式（d(i,j)<=d(i,k）+d(k,j)）。满足这些条件的测度称做度量。

闵可夫斯基距离： $d(i,j)=\sqrt[h]{\left | x_{i1}-x_{j1} \right |^h+\left | x_{i2}-x_{j2} \right |^h+...+\left | x_{ip}-x_{jp} \right |^h}$ 是欧几里得距离和曼哈顿距离的推广。h是实数， $h\geqslant 1$ .（又称 $L_{p}$ 范数，其中p就是h。L1范数表示曼哈顿距离，L2范数表示欧几里得距离。）

上确界距离（切比雪夫距离、 $L_{max}$ 、 $L_{\infty }$ 范数又称一致范数） $d(i,j)=\lim_{h\to\infty }(\sum_{f=1}^{p}\left | x_{if}-x_{jf} \right |^h)^\frac{1}{h}=_{f}^{p}\textrm{max}\left | x_{if}-x_{jf} \right |$

（5）序数属性的邻近性度量：与数值型非常类似，可以先把数据进行规范化。

（6）混合类型属性的相异性：更可取的一种方法是将不同属性组合在单个相异性矩阵中，把所有有意义的属性转换到共同区间[0.0,1.0]上。假设数据集包含p个混合类型的数据，对象i和对象j之间的相异性d(i,j)定义为： $d(i,j)=\frac{\sum_{f=1}^{p}\delta _{ij}^{(f)}d_{ij}^{(f)}}{\sum_{f=1}^{p}\delta _{ij}^{(f)}}$ 其中,指示符 $\delta _{ij}^{(f)}$ 的取值为0和1，如果 $x_{if}$ 或 $x_{jf}$ 缺失（对象i或j没有属性f的度量值）或者 $x_{if}=x_{jf}=0$ ,并且f是非对称的二元属性取值为0，否则取值为1.属性f对i和j之间相异性的贡献 $d_{ij}^{(f)}$ 根据不同的类型计算：f是数值的： $d_{ij}^{(f)}=\frac{\left | x_{if}-x_{jf} \right |}{max_{h}x_{hf}-min_{h}x_{hf}}$ ，其中h取遍属性f的所有非缺失对象。f是标称或者二元的：如果 $x_{if}=x_{jf}$ ,则 $d_{ij}^{(f)}$ =0;否则 $d_{ij}^{(f)}=1$ .f是序数的：计算排位 $r_{if}$ 和 $z_{if}=\frac{r_{if}-1}{M_{f}-1}$ ,并将 $z_{if}$ 作为数值属性对待。

（7）余弦相似性：是一种度量，可以用来比较文档，或针对给定查询词向量对文档排序。x和y是两个待比较的向量，使用余弦度量作为相似性函数，我们有 $sim(x,y)=\frac{x\cdot y}{\left \| x \right \|\left \| y \right \|}$ 其中，分母是向量x.y的欧几里得范数。余弦值越接近于1夹角越小，向量间的匹配度越大。当属性为二值属性时，余弦相似性函数可以用共享特征或属性解释。假设xi=1，则对象x具有第i个属性。于是 $x\cdot y$ 是x和y共同具有的属性数，而 $\left | x \right | \left | y \right |$ 是x具有的属性数与y具有的属性数的几何均值。这时的sim（x,y）是公共属性相对拥有的一种度量。此时， $sim(x,y)=\frac{x\cdot y}{x\cdot x+y\cdot y-x\cdot y}$ （Tanimoto距离或Tanimoto系数）。

学习笔记（二）数据挖掘概念与技术

猜你喜欢