关于数据的相关知识点

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zhangyingchengqi/article/details/78684740
数据
	数据类型 
		属性与度量
			什么是属性
			属性类型
			属性的不同类型
				分类的
					标称
					序数
				数值的
					区间
					比率
			用值的个数描述属性
				离散的
				连续的
			非对称属性
		数据集的类型 
			一般特征
				维度
				稀疏性
				分辨率
			三种类型
				记录数据
					事务数据或购物蓝数据
					数据矩阵
					稀疏数据矩阵
				基于图形的数据
					带有对象联系的数据
					具有图形对象的数据
				有序数据
					时序数据
					序列数据
					时间序列数据
					空间数据
			处理非记录数据
	数据质量
		测量和数据收集问题 
			测量误差和数据收集错误
			噪声和伪像
			精度,偏倚和准确率
				精度
				偏倚
				准确率
			离群点
			遗漏值
				处理法
					删除数据对象或属性
					估计遗漏值
					在分析时忽略遗漏值
			不一致的值
			重复数据
		关于应用的问题
			时效性
			相关性
	数据预处理
		聚集
		抽样
			抽样方法
				无放回抽样
				有放回抽样
				分层抽样
			渐进抽样
		维归约
			维灾难
			维归约的线性代数技术
				主成分分析  PCA
				奇异值分解  SVD
		特征子集选择
			嵌入
			过滤
			包装
		特征创建
			特征提取
			映射数据到新的空间
				傅立叶变换
				小波变换
			特征构造
		离散化和二元化
			二元化
			连续属性离散化
				非监督离散化
					等频率
					等宽
					K均值
				监督离散化
					熵,基尼不纯度
			具有过多值的分类属性
		变量变换
			简单函数
				在统计学中,变量变换( 特别是平方要,对数和倒数变换)常用来将不具有高斯(正态)分布的数据变换成具有高斯(正态)分布的数据。 
			规范化或标准化
	相似性和相异性的度量
		基础
			定义
			变换
		简单属性之间的相似度和相异度
			
				
		数据对象之间的相异度
			距离
				欧几里得距离
					使用闵可夫斯基距离来推广
		数据对象之间的相似度
			三角不等式通常不成立,但是对称性和非负性通常成立。 
		邻近性度量的例子
			二元数据的相似性度量
				简单匹配系数  SMC
				Jaccard匹配系数 
			余弦相似度
			广义Jaccard系数
			相关性
		邻近度计算的问题
			距离度量的标准化和相关性
			组合异种属性的相似度
			权值
		选取正确的邻近性度量

猜你喜欢

转载自blog.csdn.net/zhangyingchengqi/article/details/78684740
今日推荐