Algoritmos y aplicaciones de modelado matemático [Análisis de componentes principales]

El propósito del análisis de componentes principales: compresión de datos; interpretación de datos; reducción de la dimensionalidad de los datos.

¿Qué es el análisis de componentes principales?

Estudie cómo explicar la estructura interna entre múltiples variables a través de algunos componentes principales. Es decir, algunos componentes principales se derivan de las variables originales para que retengan la mayor cantidad de información posible sobre las variables originales y sean independientes entre sí. A menudo se utilizan para encontrar indicadores integrales para
juzgar cosas o fenómenos y analizar los indicadores integrales contenidos en ellos La información se interpreta adecuadamente

La idea básica del análisis de componentes principales.

Insertar descripción de la imagen aquí

El análisis de componentes principales consiste en intentar recombinar muchas variables originales (como p variables) con ciertas correlaciones en un nuevo conjunto de variables integrales no relacionadas para reemplazar las variables originales. ¿Cómo lidiar con esto?El tratamiento matemático habitual es hacer una combinación lineal de las variables p originales como una nueva variable integral.
Si la primera combinación lineal seleccionada, es decir, la primera variable integral, se registra como F1, es natural esperar que F1 pueda reflejar la mayor cantidad de información posible de las variables originales.
El método más clásico es expresarlo por varianza, es decir, cuanto mayor es varF1, más información contiene F1. Por lo tanto, la F1 seleccionada entre todas las combinaciones lineales debe tener la mayor varianza, por lo que se denomina primer componente principal (componente principall).
Si el primer componente principal no es suficiente para representar la información de las p variables originales, entonces considere seleccionar F2, la segunda combinación lineal. F2 se denomina segundo componente principal (componente principal II). ¿Cuál es la relación entre F1 y F2?
Para reflejar efectivamente la información original, la información existente de F1 ya no aparecerá en F2, es decir, cov (F1, F2) = 0. Por analogía, se pueden obtener p componentes principales. Por lo tanto, estos componentes principales no están correlacionados entre sí y las varianzas disminuyen en orden. En la práctica, los primeros componentes principales más grandes se seleccionan para su representación. ¿estándar?
La tasa de contribución de la varianza acumulada de cada componente principal es >85% o la raíz característica es >1.

Modelo matemático de análisis de componentes principales.

Insertar descripción de la imagen aquí

El análisis de componentes principales se puede realizar si KMO excede 0,5; también se puede realizar 0,3-0,5, pero no se recomienda, y el análisis de componentes principales no se puede realizar si KMO está por debajo de 0,3.
Si la prueba del nivel de significancia Sig es inferior a 0,05, se puede realizar. Si es superior a 0,05, no se recomienda
realizar la prueba del programa principal si se cumple uno de los dos tipos de datos.
Insertar descripción de la imagen aquí

Pasos del análisis de componentes principales.

Estandarizar los indicadores p originales para eliminar la influencia de variables en niveles y dimensiones.
Calcule la matriz de coeficientes de correlación basada en la matriz de datos estandarizada
Encuentre las raíces propias y los vectores propios de la matriz de covarianza.
Determine los componentes principales y dé explicaciones apropiadas de la información contenida en cada componente principal.
Esta parte es más fácil de entender en comparación con el libro.

ejemplo

Utilice el análisis de componentes principales para analizar y clasificar los beneficios de la inversión.
Insertar descripción de la imagen aquí
código

clc,clear
gj=load('data14_7.txt');%获取数据
gj=zscore(gj); %数据标准化
r=corrcoef(gj);  %计算相关系数矩阵
%下面利用相关系数矩阵进行主成分分析，x的列为r的特征向量，即主成分的系数
[x,y,z]=pcacov(r) %y为r的特征值，z为各个主成分的贡献率
f=repmat(sign(sum(x)),size(x,1),1); %构造与x同维数的元素为±1的矩阵
x=x.*f %修改特征向量的正负号，每个特征向量乘以所有分量和的符号函数值
num=3;  %num为选取的主成分的个数
df=gj*x(:,[1:num]);  %计算各个主成分的得分
tf=df*z(1:num)/100; %计算综合得分
[stf,ind]=sort(tf,'descend');  %把得分按照从高到低的次序排列
stf=stf', ind=ind'

resultado de la operación
Insertar descripción de la imagen aquí