版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zhangyingchengqi/article/details/78684740
数据
数据类型
属性与度量
什么是属性
属性类型
属性的不同类型
分类的
标称
序数
数值的
区间
比率
用值的个数描述属性
离散的
连续的
非对称属性
数据集的类型
一般特征
维度
稀疏性
分辨率
三种类型
记录数据
事务数据或购物蓝数据
数据矩阵
稀疏数据矩阵
基于图形的数据
带有对象联系的数据
具有图形对象的数据
有序数据
时序数据
序列数据
时间序列数据
空间数据
处理非记录数据
数据质量
测量和数据收集问题
测量误差和数据收集错误
噪声和伪像
精度,偏倚和准确率
精度
偏倚
准确率
离群点
遗漏值
处理法
删除数据对象或属性
估计遗漏值
在分析时忽略遗漏值
不一致的值
重复数据
关于应用的问题
时效性
相关性
数据预处理
聚集
抽样
抽样方法
无放回抽样
有放回抽样
分层抽样
渐进抽样
维归约
维灾难
维归约的线性代数技术
主成分分析 PCA
奇异值分解 SVD
特征子集选择
嵌入
过滤
包装
特征创建
特征提取
映射数据到新的空间
傅立叶变换
小波变换
特征构造
离散化和二元化
二元化
连续属性离散化
非监督离散化
等频率
等宽
K均值
监督离散化
熵,基尼不纯度
具有过多值的分类属性
变量变换
简单函数
在统计学中,变量变换( 特别是平方要,对数和倒数变换)常用来将不具有高斯(正态)分布的数据变换成具有高斯(正态)分布的数据。
规范化或标准化
相似性和相异性的度量
基础
定义
变换
简单属性之间的相似度和相异度
数据对象之间的相异度
距离
欧几里得距离
使用闵可夫斯基距离来推广
数据对象之间的相似度
三角不等式通常不成立,但是对称性和非负性通常成立。
邻近性度量的例子
二元数据的相似性度量
简单匹配系数 SMC
Jaccard匹配系数
余弦相似度
广义Jaccard系数
相关性
邻近度计算的问题
距离度量的标准化和相关性
组合异种属性的相似度
权值
选取正确的邻近性度量