# 1.引入inputer() 使用均值对缺失值进行填充
impute = pd.DataFrame(Imputer().fit_transform(df))
print(impute.head())
impute.columns = df.columns
impute.index = df.index
# 2.导入相关的包
%matplotlib notebook
import numpy as np
import seaborn as sns#针对统计绘图的工具
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA#sklearn.decomposition模块包括矩阵分解算法，包括PCA，NMF或ICA。 该模块的大多数算法可以被视为降维技术。
from mpl_toolkits.mplot3d import Axes3D#画3D图的包

# 3.取出样品特征， 取出Dx:Cancer 
features = impute.drop('Dx:Cancer', axis=1)
y = impute['Dx:Cancer']
# 4进行PCA操作
pca = PCA(n_components=3)
X_r = pca.fit_transform(features)
# '{:.2%}'表示保留两位小数, pca.explained_variabce_ratio表示所占的比例
print('Explained variance:\nPC1{:.2%}\nPC2{:.2%}\nPC3{:.2%}'
    .format(pca.explained_variance_ratio_[0],
            pca.explained_variance_ratio_[1],
            pca.explained_variance_ratio_[2],))
# 构造三维坐标系
fig = plt.figure()
ax = Axes3D(fig)
# 画散点图
ax.scatter(X_r[:, 0], X_r[:, 1], X_r[:, 2], c='r', cmap=plt.cm.coolwarm)
# 对三个维度的坐标进行标注
ax.set_xlabel('PC1')
ax.set_ylabel('PC2')
ax.set_zlabel('PC3')

     0    1        2    3    4     5     6    7     8    9  ...         26  \
0  18.0  4.0  15.0000  1.0  0.0   0.0   0.0  0.0   0.0  0.0 ...   6.140845   
1  15.0  1.0  14.0000  1.0  0.0   0.0   0.0  0.0   0.0  0.0 ...   6.140845   
2  34.0  1.0  16.9953  1.0  0.0   0.0   0.0  0.0   0.0  0.0 ...   6.140845   
3  52.0  5.0  16.0000  4.0  1.0  37.0  37.0  1.0   3.0  0.0 ...   6.140845   
4  46.0  3.0  21.0000  4.0  0.0   0.0   0.0  1.0  15.0  0.0 ...   6.140845   

         27   28   29   30   31   32   33   34   35  
0  5.816901  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  
1  5.816901  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  
2  5.816901  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  
3  5.816901  1.0  0.0  1.0  0.0  0.0  0.0  0.0  0.0  
4  5.816901  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  

[5 rows x 36 columns]
Explained variance:
PC159.41%
PC214.59%
PC39.02%

Text(0.5,0,'PC3')

	Condition 1	Condition 2	Condition 3
0	0.548814	0.880757	0.395459
1	0.715189	0.719243	0.480735
2	0.602763	0.415331	0.767394
3	0.544883	0.702476	0.066248
4	0.423655	0.106447	0.733443

4-9 Panadas与sklearn结合实例

猜你喜欢

	Age	Number of sexual partners	First sexual intercourse	Num of pregnancies	Smokes	Smokes (years)	Smokes (packs/year)	Hormonal Contraceptives	Hormonal Contraceptives (years)	...	STDs: Time since first diagnosis	STDs: Time since last diagnosis	Dx:Cancer	Dx:HPV
0	18	4.0	15.0	1.0	0.0	0.0	0.0	0.0	0.0	...	NaN	NaN	0	0
1	15	1.0	14.0	1.0	0.0	0.0	0.0	0.0	0.0	...	NaN	NaN	0	0
2	34	1.0	NaN	1.0	0.0	0.0	0.0	0.0	0.0	...	NaN	NaN	0	0
3	52	5.0	16.0	4.0	1.0	37.0	37.0	1.0	3.0	...	NaN	NaN	1	1
4	46	3.0	21.0	4.0	0.0	0.0	0.0	1.0	15.0	...	NaN	NaN	0	0

	0	1	2	3	4	5	6	7	8	...	26	27	28	30
0	18.0	4.0	15.0000	1.0	0.0	0.0	0.0	0.0	0.0	...	6.140845	5.816901	0.0	0.0
1	15.0	1.0	14.0000	1.0	0.0	0.0	0.0	0.0	0.0	...	6.140845	5.816901	0.0	0.0
2	34.0	1.0	16.9953	1.0	0.0	0.0	0.0	0.0	0.0	...	6.140845	5.816901	0.0	0.0
3	52.0	5.0	16.0000	4.0	1.0	37.0	37.0	1.0	3.0	...	6.140845	5.816901	1.0	1.0
4	46.0	3.0	21.0000	4.0	0.0	0.0	0.0	1.0	15.0	...	6.140845	5.816901	0.0	0.0