机器学习--数据降维

特征选择(减少特征的数量)–过滤式

  • 原因:
    冗余:部分特征的相关度高,容易消耗计算性能
    噪声:部分特征对预测结果有影响
  • 思想
    从方差(Variance)入手,方差相差不多的就过滤掉
  • API
    在这里插入图片描述
  • 代码演示
from sklearn.feature_selection import VarianceThreshold


def var():
    var = VarianceThreshold(threshold=1.0)
    data = var.fit_transform([[0,2,0,3],[0,1,4,3],[0,1,1,3]])

    print(data)

    return None

if __name__ == '__main__':
    var()

特征选择—主成分分析(PCA)

  • 本质:是一种分析、简化数据集的技术
  • 目的:是数据维数压缩,尽可能降低原数据的维数(复杂度),损失少量信息
  • 作用:可以削减回归分析或者聚类分析中特征的数量
  • 应用场景:当数据的特征数量达到上百的时候,就要考虑降维,并且数据也会发生改变
  • API
    在这里插入图片描述
    n_companents = 小数 表示留下原来特征的百分比 通畅90%–95%
    整数 表示减少到的特征数量 通畅不使用整数
  • 代码演示
from sklearn.decomposition import PCA


def pca():
    pca = PCA(n_components=0.9)

    data  = pca.fit_transform([[2,8,4,5],[6,3,0,8],[5,4,9,1]])

    print(data)

    return None


if __name__ == '__main__':
    pca()
发布了14 篇原创文章 · 获赞 0 · 访问量 779

猜你喜欢

转载自blog.csdn.net/heixue666/article/details/96496080