作业：利用PCA对半导体制造数据（secom.data）进行降维 - 代码天地

作业：利用PCA对半导体制造数据（secom.data）进行降维

其他 2020-08-03 13:40:18 阅读次数: 0

数据集链接
提取码：l552

对数据进行处理，包括对nan进行处理。要注意，这里的文件是以.data形式给出，对.data文件的处理详见：python利用pandas读取.data文件并对nan进行处理
浏览本文前请先熟知PCA的基本原理及大致过程，详见：降维基础知识（样本均值、样本方差、中心矩阵）与PCA（最大投影方差，最小重构代价，SVD分解）
根据PCA理论：构建样本矩阵X、协方差矩阵S、中心矩阵H。
对S进行特征值分解，并取前K个特征值最大的特征向量（降成K维）。
X与上述新构建的特征向量矩阵相乘，得到最终答案。

完整代码：

import pandas as pd
import numpy as np
from numpy import linalg

def load_file():
   data = pd.read_csv('manifold/secom.data', sep=' ', names=[i for i in range(590)])
   data = np.array(data)

   for i in range(data.shape[1]):
       temp = np.array(data)[:, i].tolist()
       mean = np.nanmean(temp)
       data[np.argwhere(np.isnan(data[:, i].T)), i] = mean

   return data


def pca(K):
    X = load_file()
    N = X.shape[0]
    En = np.eye(N)
    In = np.ones((N, 1), float)

    H = En - (1/N)*np.dot(In, In.T)  #定义中心矩阵
    S = (1/N)*np.dot(np.dot(X.T, H), X)  #定义协方差矩阵

    val, vec = linalg.eig(S)   #求解特征值与特征向量
    sorted_indices = np.argsort(-val)   #从大到小排序
    #取前K个最大的特征值的特征向量
    final = np.zeros((K, vec.shape[1]), float)
    for i in range(K):
        final[i, :] = vec[sorted_indices[i], :]

    final_data = np.dot(X, final.T)  #降为K为后的矩阵
    return final_data


if __name__ == '__main__':
    K = 250
    print(pca(K))

猜你喜欢

转载自blog.csdn.net/Cyril_KI/article/details/107733693

作业：利用PCA对半导体制造数据（secom.data）进行降维

《机器学习实战》训练营——利用PCA对半导体制造数据降维

对半导体制造(FAB)工种的全方位解析

多元统计分析-半导体数据降维

全球半导体制造景气度（201907）

固态器件理论（10）半导体制造技术

固态器件理论（10）半导体制造技术

使用PCA对特征数据进行降维

数据降维PCA

重磅？投资27.5亿美元，美国半导体巨头将在印度建半导体制造工厂

半导体制造工艺基础施敏版教材期末考试宝典

IC芯片自动测试系统平台ATECLOUD：提高半导体制造效率与质量

机器学习实战-利用PCA来简化数据(降维)

ML之DR之PCA：利用PCA对手写数字图片识别数据集进行降维处理(理解PCA)

使用PCA对数据集进行降维

PCA主成分分析对数据进行降维

用 PCA 方法进行数据降维

分别进行PCA降维和LDA降维后分类iris数据集

使用PCA进行特征降维

ML之DR：基于鸢尾花(Iris)数据集利用多种降维算法(PCA/TSVD/LDA/TSNE)实现数据降维并进行二维和三维动态可视化应用案例

数据挖掘之PCA降维练习

python 数据降维PCA，KernelPCA模型

[机器学习]--数据降维（PCA）

机器学习：数据降维：PCA 、LDA

PCA-数据降维实战

半导体智能制造集成应用与优化

PCA降维2

PCA降维

PCA降维算法

降维方法PCA

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)