学习笔记（四）数据预处理之数据集成

数据集成：合并来自多个数据存储的数据。

小心集成有助于减少结果数据集的冗余和不一致，有助于提高其后挖掘过程的准确性和速度。

在数据集成时，模式集成和对象匹配需要技巧，涉及这实体识别问题。每个属性的元数据包括名字，含义，数据类型和属性的允许取值范围，以及处理空白，零或零值的空值规则。这样的元数据可以用来帮助避免模式集成的错误。在集成期间，当一个数据库的属性与另一个数据库属性匹配时，必须特别注意数据结构。这旨在确保源系统中的函数依赖和参照约束与目标系统的匹配。

冗余和相关分析

有些冗余可以被相关分析检测到，给定两个属性，这种分析可以根据可用的数据，度量一个属性能在多大程度上蕴含另一个。对于标称数据，使用我们 $\ chi ^ {2}$ 检验。对于数值属性，使用我们相关系数状语从句：协方差。

1数据标称的 $\ chi ^ {2}$ 相关检验

标称数据的两个属性甲和B，假设甲有Ç个不同值 $A_ {1}，A_ {2}，A_ {3}，...... A_ {C}$ ，B有- [R个不同值 $B_ {1}，B_ {2}，B_ {3}，...... B_ {R}$ 。用甲和乙描述的数据元组可以用一个相依表显示，C列- [R行。令 $（A_ {I}，{B_}Ĵ）$ $（A_ {I}，{B_}Ĵ）$ 表示联合事件，每个可能的联合事件都在表中有自己的单元。 $\ chi ^ {2}$ 值（又称皮尔逊卡方统计量）公式如下： $\ chi ^ {2} = \ sum _ {i = 1} ^ {c} \ sum _ {j = 1} ^ {r} \ frac {（o_ {ij} -e_ {ij}）^ {2}} {E_ {IJ}}$ 其中， $O_ {} IJ$ 的英文联合事件 $（A_ {I}，{B_}Ĵ）$ 的观测频度（实际计数），而 $E_ {} IJ$ 的英文 $（A_ {I}，{B_}Ĵ）$ 的期望频度，公式如下： $e_ {ij} = coun（A = a_ {i}）\次数（B = b_ {j}）/ n$ 。其中ñ是数据元组的个数， $COUN（A = A_ {I}）$ 是阿上具有值 $A_ {I}$ 的元型态祖个数，而 $计数（B = B_ {Ĵ}）$ 是乙上具有值 $B_ {}Ĵ$ 。的元组个数卡方值在所有的R *ç个单元上计算。注意：卡对方值贡献最大的的英文实际计数和期望计数很不相同的单元卡方统计检验假设甲和乙是独立的，检验基于显着性水平，具有自由度（R-1）* （C-1）。

2，数值数据的相关系数

对于数值型数据，可以通过A，B的相关系数（人积矩系数）估计两个属性的相关度 $R_ {A，B}$ 。

$R_ {A，B}$ = $\ frac {\ sum_ {i = 1} ^ {n}（a_ {i} - \ bar {A}）（b_ {i} - \ bar {B}）} {n \ sigma _ {A} \ sigma _ {B}}$ 其中，N是元组个数取值范围是-1到1,0代表甲和乙是独立，不存在相关性如果该结论小于0，则甲和乙是负相关的，注意：。相关性并不依赖于因果关系。

3，数值数据的协方差

甲和乙的协方差（协方差）定义为 $COV（A，B）= E（（A- \巴{A}）（B- \巴{B}））= \压裂{\ sum_ {I = 1} ^ {N}（A_ {I} - \酒吧{A}）（B_ {I} - \酒吧{B}）} {N}$

而且，协相关系数和协方差之间的关系是： $r_ {A，B} = \ frac {cov（A，B）} {\ sigma _ {A} \ sigma _ {B}}$ 可以证明 $cov（A，B）= E（A \ cdot B） - \ bar {A} \ bar {B}$

方差是协方差的特殊情况，其中的两个属性相同（即属性与自身的协方差）....，

除了检测属性间的冗余外还应当在元祖级检测重复。规范化表的使用是数据冗余的另一个来源。

学习笔记（四）数据预处理之数据集成

猜你喜欢