Data analysis data protocol

1. Concept

"数据规约"(Data Reduction)是指在尽可能保持数据原貌的前提下,最大限度地精简数据集.数据规约又分为2:"属性规约""数值规约"

2. Attribute specification
1. Concept:

"属性规约"(Attributes Reduction)是指通过减少数据集中的属性来精简数据集,目的是减少系统资源的消耗并降低无效/错误数据的影响.这相当
于降低表示成向量的数据的维度,因此又称"数据降维".由于不同属性包含了不同的信息量,需要选择舍弃哪些属性才能最小化信息损失.降维方法有2:"特征选择""特征提取"

2. Feature selection
(1) concept:

"特征选择"(Feature Selection)是指从原始特征集中选出1组最具统计意义的特征,以降低数据集中的属性数,不会改变原特征空间

(2) Method:

"决策树"(Decision Tree)
"分支定界法"(Branch and Bound)
"序列前向选择"(Sequential Forward Selection)
"序列后向选择"(Sequential Backward Selection)
"模拟退火"(Simulated Annealing)
"竞技搜索"(Tabu Search)
"遗传算法"(Genetic Algorithms)

3. Feature extraction
(1) concept:

"特征提取"(Feature Extraction)是指将原始特征转换为1组具有明显物理或统计意义的特征,以降低数据集中的属性数.其和特征选择的区别在于
特征提取会通过转换原有特征得到新的特征,因而会改变原特征空间.方法主要包括PCA,LDA,SVD,ICA

(2) Principal component analysis:

参见 机器学习.主成分分析 部分

(3) Linear discriminant analysis:

参见 机器学习.线性判别分析 部分

(4) Independent component analysis:

"独立成分分析"(Independent Component Analysis;ICA)

Three. Numerical specification
1. Concept:

"数值规约"(Numerosity Reduction)是指通过减少数据集中的数据量来精简数据集.数值规约方法有2大类:"有参数方法""无参数方法"

2. There is a parameter method
(1) concept:

"有参数方法"是指使用参数模型来近似原数据,最后只需要存储参数

(2) Method:

"回归"(Regression)
  "多元回归"(Multivariable Regression)
  "线性回归"(Linear Regression)
"对数线性模型"(Logarithmic Linear Model)用于近似离散属性集中的多维概率分布

3. No-parameter method
(1) concept:

"无参数方法"是指使用1个较少的数据集来近似原数据,需要存放实际数据

(2) Method:

"直方图"(Histogram)使用数据在多个互不相交的子集(称为"分箱"(Bin))中的分布来近似原数据分布
"聚类"(Cluster)将记录分入不同的"簇"(Cluster),再用簇来近似实际数据
"抽样"(Sampling)使用从原数据集中按一定规则抽取的1个子集(称为"样本"(Specimen))来近似原数据集

Guess you like

Origin blog.csdn.net/weixin_46131409/article/details/113406939