学习笔记(二)数据挖掘概念与技术

1中心趋势度量:均值(mean)、中位数、众数

截尾均值:丢掉高低极端值后的均值

加权算术均值(加权平均):\bar{x}=\sum_{i=1}^{N}w_{i}x_{i}/\sum_{i=1}^{N}w_{i}=w_1{}x_1{}+w_2{}x_2{}+...+w_{N}x_{N}/w_1{}+w_2{}+...+w_N{}

中位数(median)是有序数据的中间值,对于非对称数据是数据中心更好的度量。

用插值法计算中位数的近似值:median=L_{1}+(N/2-(\sum freq )_{l}/freq_{median})width其中L_{1}是中位数区间的下界,N是整个数据集中值的个数,(\sum freq )_{l}是低于中位数区间的所有区间的频率和,freq_{median}是中位数区间的频率,而width是中位数区间的宽度。

众数(mode):集合中出现最频繁的值,可以对定性和定量属性确定众数。(可能出现多个众数)

对于适度倾斜(非对称)的单峰数值数据,有经验关系:mean-mode\approx 3\times (mean-median),就是说如果均值和中位数已知,则适度倾斜的单峰频率曲线的众数容易近似计算。

中列数(midrange):是数据集的最大和最小值的平均值(max+min)/2。具有完全对称的数据分布的单峰频率曲线中,均值、中位数、众数相同

2度量数据散布:极差、四分位数、方差、标准差和四分位数极差

(1)极差:最大值与最小值之差。分位数:取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。2-分位数对应于中位数,4-分位数是3个数据点,把数据划分成4个相等的部分。第1和3个四分位数之间的距离是散布的一种简单度量,给出数据中间一半所覆盖的范围称为四分位数极差(IQR)=Q3-Q1

(2)五数概括、盒图与离群点

识别可疑离群点的通常规则是,挑选落在第三个四分位数之上或者Q1之下至少1.5*IQR处的值。

五数概括:minimum,Q1,Median.Q3,maximum

boxplot(盒图):端点一般在四分位数上,使得盒的长度是四分位数极差IQR,中位数用盒内线做标记,胡须延伸到min和max的观测值。

方差和标准差:指出数据的散布(离散)程度,越小说明数据观测趋于均值,越大离散程度越大。\delta^{^{2}}=(1/N)\sum_{i=1}^{N}(x_{i}-\tilde{x})^2=(1/N*\sum_{i=1}^{n}x_{i}^{2})^2-\bar{x}^2注意:一个观测一般不会远离均值超过标准差的数倍,精准的说,最少(1-1\div k^2)\ast 100%(1-\frac{1}{k^2})*100%的观测离均值不超过k个标准差。因此,标准差是数据集发散的很好指示器。

3数据统计描述的图形显示:分位数图、分位数-分位数图、直方图和散点图(涉及两个属性,前三个只关于一个属性)

分位数图:是一种观察单变量数据分布的简单有效的方法。在分位数图中xi对应fi画出,f_{i}=(i-0.5)/N这些数从1/2N到1-1/2N,以相同的步长1/N递增。

分位数-分位数图(q-q图):对着另一个对应的分位数,绘制一个单变量分布的分位数。使得用户可以观察从一个分布到另一个分布是否有漂移。

直方图:

散点图:去定两个数值变量之间看上去是否存在联系、模式或趋势的最有效的图形方法之一。

4数据可视化:旨在通过图形表示清晰有效的表达数据。

(1)基于像素的可视化技术:可视化一维值,使用像素反映该维的值。对于宽窗口,已先行方法安排数据记录填充窗口的效果可能不好。解决方法:空间填充曲线(希尔伯特曲线、格雷码、z-曲线)。窗口不必是矩形的。例如,圆弓分割技术。

(2)几何投影可视化技术:首要挑战是设法解决如何在二维上显示可视化高维空间。,可以增加第三维。三维散点图同样也可以使用颜色增加4维数据点。超过4维,散点图矩阵是二维散点图的n*n网格,提供每个维与所有其他维的可视化。平行坐标(流行)可以处理更高的维度,绘制n个等距离、互相平行的轴,每维一个。数据记录用折线表示,与每个轴在对应于相关维值的点上相交。

(3)基于图符的可视化技术:使用少量图符表示多维数据值。(切尔诺夫脸:已经发现,眼睛大小和眉毛的歪斜是重要的。人物线条画:两个维被映射到显示轴,其余的被映射到四肢角度和长度。----》人口普查)

(4)层次可视化技术:把所有维划分成子集(子空间),这些子空间按层次可视化。例如:“世界中的世界(Worlds-within-Worlds)”又称n-Vision,以6维数据可视化为例,选定某三维数据为固定值,使用世界(三维图)对另外三个维度可视化。可以在外世界中交互的改变的内世界原点的位置,然后观察内世界的变化结果。

(5)可视化复杂对象和关系:标签云是用户产生的标签统计量的可视化。

5度量数据的相似性和相异性:簇是数据对象的集合,使得同一个簇中的对象互相相似,而与其他簇中的对象相异。相似性和相异性都称邻近性。

(1)数据矩阵(二模two-mode矩阵)与相异性矩阵(单模one-mode矩阵):数据矩阵(对象-属性结构):这种数据结构用关系表的形式或n*p矩阵存放n个数据对象。\begin{bmatrix} x_{11}&...& x_{1f}& ...&x_{1p} \\ ...&... & ... & ...&...\\ x_{i1} & ...&x_{if} &... &x_{ip} \\ ...& ... & ... & ... &... \\ x_{n1} &... &x_{nf} &...& x_{np} \end{bmatrix}每一行对应着一个对象,在记号中,我们可能使用f取遍p个属性的下标。相异性矩阵(对象-对象矩阵):存放n个对象两两之间的邻近度,通常用一个n*n矩阵表示:\begin{bmatrix} 0& & & & \\ d(2,1)&0 & & & \\ d(3,1)&d(3,2) &0 & & \\ ...& ...&... & & \\ d(n,1)&d(n,2) &... &... &0 \end{bmatrix}其中d(i,j)是对象i和对象j之间的相异性或“差别”的度量,一般是非负数,两个对象越相似越接近0越不同该值越大。相似性度量:sim(i,j)=1-d(i,j)

(2)标称属性的邻近性度量:标称属性可以取两个或多个状态。两个对象i和j之间的相异性可以根据不匹配率来计算:d(i,j)=(p-m)/p其中,m是匹配的数目,而p是刻画对象的属性总数。所以,sim(i,j)=1-d(i,j)=m/p(3)二元属性的邻近性度量:给出一个具有相同权重的二元属性列联表\bigl(\begin{smallmatrix} && j & & \\ & & 1 & 0 &sum \\ i&1 &q &r &q+r \\ &0&s & t &s+t \\ & sum& q+s &r+t &p \end{smallmatrix}\bigr)对称的二元相异性d(i,j)=\frac{r+s}{q+r+s+t}非对称的二元相异性,其中负匹配(两个都取值为0)数t被认为是不重要的,被忽略有d(i,j)=\frac{r+s}{q+r+s}可以基于相似性来度量,非对称的二元相似性sim(i,j)=\frac{q}{q+r+s}=1-d(i,j)被称为Jaccard系数。

(4)数值属性的相异性欧几里得距离、曼哈顿距离和闵可夫斯基距离。最流行的距离度量是欧几里得距离(“乌鸦飞行”)令i=(x_{i1},x_{i2},...x_{ip})和j=(x_{j1},x_{j2},...x_{jp})是两个被p数值属性描述的对象。对象i和j之间的欧几里得距离定义为:d(i,j)=\sqrt{(x_{i1}-x_{j1})^2+(x_{i2}-x_{j2})^2+...(x_{ip}-x_{jp})^2}曼哈顿(城市块)距离d(i,j)=\left | x_{i1}-x_{j1} \right |+\left | x_{i2}-x_{j2} \right |+...+\left | x_{ip}-x_{jp} \right |这两个距离都满足如下性质:非负性、同一性、对称性、三角不等式(d(i,j)<=d(i,k)+d(k,j))。满足这些条件的测度称做度量

闵可夫斯基距离:d(i,j)=\sqrt[h]{\left | x_{i1}-x_{j1} \right |^h+\left | x_{i2}-x_{j2} \right |^h+...+\left | x_{ip}-x_{jp} \right |^h}是欧几里得距离和曼哈顿距离的推广。h是实数,h\geqslant 1.(又称L_{p}范数,其中p就是h。L1范数表示曼哈顿距离,L2范数表示欧几里得距离。)

上确界距离(切比雪夫距离、L_{max}L_{\infty }范数又称一致范数)d(i,j)=\lim_{h\to\infty }(\sum_{f=1}^{p}\left | x_{if}-x_{jf} \right |^h)^\frac{1}{h}=_{f}^{p}\textrm{max}\left | x_{if}-x_{jf} \right |

(5)序数属性的邻近性度量:与数值型非常类似,可以先把数据进行规范化。

(6)混合类型属性的相异性:更可取的一种方法是将不同属性组合在单个相异性矩阵中,把所有有意义的属性转换到共同区间[0.0,1.0]上。假设数据集包含p个混合类型的数据,对象i和对象j之间的相异性d(i,j)定义为:d(i,j)=\frac{\sum_{f=1}^{p}\delta _{ij}^{(f)}d_{ij}^{(f)}}{\sum_{f=1}^{p}\delta _{ij}^{(f)}}    其中,指示符\delta _{ij}^{(f)}的取值为0和1,如果x_{if}x_{jf}缺失(对象i或j没有属性f的度量值)或者x_{if}=x_{jf}=0,并且f是非对称的二元属性取值为0,否则取值为1.属性f对i和j之间相异性的贡献d_{ij}^{(f)}根据不同的类型计算:f是数值的:d_{ij}^{(f)}=\frac{\left | x_{if}-x_{jf} \right |}{max_{h}x_{hf}-min_{h}x_{hf}},其中h取遍属性f的所有非缺失对象。f是标称或者二元的:如果x_{if}=x_{jf},则d_{ij}^{(f)}=0;否则d_{ij}^{(f)}=1.f是序数的:计算排位r_{if}z_{if}=\frac{r_{if}-1}{M_{f}-1},并将z_{if}作为数值属性对待。

(7)余弦相似性:是一种度量,可以用来比较文档,或针对给定查询词向量对文档排序。x和y是两个待比较的向量,使用余弦度量作为相似性函数,我们有sim(x,y)=\frac{x\cdot y}{\left \| x \right \|\left \| y \right \|}其中,分母是向量x.y的欧几里得范数。余弦值越接近于1夹角越小,向量间的匹配度越大。当属性为二值属性时,余弦相似性函数可以用共享特征或属性解释。假设xi=1,则对象x具有第i个属性。于是x\cdot y是x和y共同具有的属性数,而\left | x \right | \left | y \right |是x具有的属性数与y具有的属性数的几何均值。这时的sim(x,y)是公共属性相对拥有的一种度量。此时,sim(x,y)=\frac{x\cdot y}{x\cdot x+y\cdot y-x\cdot y}(Tanimoto距离或Tanimoto系数)。
 

猜你喜欢

转载自blog.csdn.net/never0822/article/details/81215105
今日推荐