Análisis de proceso completo de multicolinealidad

1. Descripción de la multicolinealidad

La multicolinealidad generalmente significa que si dos o más variables independientes están altamente correlacionadas (el coeficiente de correlación es mayor a 0.8), es difícil distinguir la influencia y el efecto de una variable independiente sobre la variable dependiente, y las consecuencias de la correlación de la variable independiente están definidas. como colinealidad múltiple La linealidad generalmente plantea el problema de la multicolinealidad, y los investigadores a menudo piensan en el análisis de regresión. Los métodos de análisis de regresión, los modelos de regresión, etc., juegan un papel importante en las estadísticas. En la mayoría de los casos, el uso del análisis de regresión para construir modelos se debe a la alta correlación entre las variables explicativas en el modelo (como un coeficiente de correlación superior a 0,8). , por lo que conduce a La estimación del modelo de datos está distorsionada En este momento, el problema de la multicolinealidad debe eliminarse para lograr una estimación precisa del modelo. A continuación, explicaremos el diagnóstico de multicolinealidad, las soluciones a la multicolinealidad y ejemplos para ilustrar la multicolinealidad.

2. Diagnóstico de multicolinealidad

1. Método empírico

El método empírico es hacer un juicio simple a través de la experiencia macro. El R cuadrado del modelo es relativamente alto, pero la variable no es significativa (prueba t en regresión), o el resultado del modelo no es razonable. Esto puede tener multicolinealidad, es decir , si el cuadrado de R es alto, en general, la ecuación en su conjunto será significativa (es decir, pasará la prueba F), pero la prueba t muestra que hay muy pocos o ningún coeficiente de pendiente que sea significativamente diferente de 0.

2. Método de prueba del coeficiente de correlación

El análisis de correlación se realiza en dos variables explicativas diferentes cualesquiera del modelo para obtener el coeficiente de correlación. Si el valor absoluto del coeficiente de correlación es grande (generalmente superior a 0,8), se considera que las dos variables están muy correlacionadas, pero es necesario debe saberse que el análisis de correlación solo puede probar la correlación entre dos variables explicativas, y no es adecuado para la prueba de correlación de más (como tres) variables explicativas.

3. VIF (método del factor de inflación de la varianza)

El método del factor de inflación de la varianza también se denomina VIF En regresión lineal, el valor VIF de la i-ésima variable explicativa se expresa como:

Entre ellos, el cuadrado R_i es el coeficiente de determinación que se obtiene al tomar la variable explicativa i-ésima como la variable explicada y realizar una regresión lineal sobre otras variables explicativas k-1. De la ecuación se puede obtener que Ri cuadrado ≥ 1, y cuanto mayor sea el valor de VIF, mayor será el valor de Ri cuadrado, es decir, más fuerte será la correlación. Entonces VIF puede medir la severidad de la multicolinealidad. Si VIF ≥ 10, indica que existe multicolinealidad entre las variables independientes. O VIF se puede proporcionar directamente sin cálculo por parte de SPSSAU. como sigue:

4. Método de juicio de la raíz característica

El análisis de raíz característica muestra que cuando la raíz característica en la matriz ��′�� es aproximadamente 0, indica que existe multicolinealidad en los vectores columna de la matriz X, y la raíz característica más grande de ��′�� es � � , que se llama:

��=����,�=0,1,2,⋯,�

es el número de condición de la raíz característica ��. El grado de dispersión de la raíz característica de la matriz X'X se mide por el número de condición, que puede juzgar la existencia y severidad de la multicolinealidad.Si 0<k<10, la multicolinealidad de la matriz de diseño X no existe, y cuando 10≤k<100 la situación de multicolinealidad es grave, cuando k≥100 la colinealidad es muy grave.

Entonces, ¿cómo resolverlo si hay multicolinealidad?

Tres, la solución

Si hay un problema de multicolinealidad, generalmente se puede explicar desde tres aspectos: eliminar variables, aumentar el tamaño de la muestra y reemplazar el modelo.

1. Eliminar variables

La eliminación de variables es la forma más directa de lidiar con la colinealidad. En general, es posible encontrar la variable explicativa que causa la multicolinealidad y luego eliminarla del modelo, pero a menudo no es fácil juzgar qué variable causa la multicolinealidad, por lo que la solución general es la regresión por pasos. La regresión por pasos consiste en introducir variables explicativas en el modelo una por una. Si las variables recién introducidas hacen que la prueba de significancia estadística o el juicio del modelo sean consistentes con los hechos, y el cuadrado R puede mejorarse, entonces debe introducirse; de ​​lo contrario, no necesita ser presentado. Sin embargo, después de excluir la variable que causa la colinealidad, las estimaciones de los coeficientes de las variables que permanecen en el modelo cambiarán, al igual que la significación real.

2. Aumentar el tamaño de la muestra

Generalmente, si en el modelo econométrico, los datos muestrales de la variable inversión son muy pequeños, es fácil causar problemas de multicolinealidad, y el tamaño de la muestra se puede aumentar recolectando más observaciones, lo que puede evitar o reducir la influencia de la colinealidad, pero hará que el cálculo aumente en volumen.

3. Cambia el modelo

Además, el modelo de investigación también se puede reemplazar usando regresión de cresta, regresión de componentes principales, regresión de Lasso, etc.

La regresión de crestas es un método para reducir la varianza de los estimadores de parámetros mediante la introducción de sesgos. Aunque la regresión de crestas puede hacer que los datos sean más razonables, si el significado real del modelo original no es razonable, es posible que no lo haga necesariamente incluso después de haber sido corregido por la regresión de crestas. regresión A través de la prueba de significación práctica, se dice que no toda la colinealidad puede resolverse mediante la regresión de cresta en aplicaciones prácticas. El funcionamiento es el siguiente:

En la regresión de componentes principales, el análisis de componentes principales, también conocido como análisis de componentes principales, es un método de análisis que utiliza la idea de reducción de dimensionalidad para convertir múltiples indicadores en varios indicadores integrales a través de la rotación ortogonal con la premisa de minimizar la pérdida de información. El principio básico es: utilice el análisis de componentes principales para convertir las variables explicativas en varios componentes principales, que reflejen la influencia integral de las variables explicativas desde diferentes aspectos, y luego haga una regresión de estos componentes principales con variables explicativas y elimine los componentes principales. variables explicativas y se obtiene la ecuación estimada del modelo de regresión original. Por ejemplo, hay 6 X, que utilizan el principio de reducción de dimensionalidad para reducir la dimensionalidad de 6 X en, por ejemplo, 2 componentes principales y luego realizan análisis posteriores como la regresión lineal (este enfoque se denomina regresión de componentes principales). El funcionamiento es el siguiente:

Lazo regresa

El análisis de regresión de Lasso (Lasso Regression) es un algoritmo de investigación utilizado para resolver la colinealidad de las variables independientes en el análisis de regresión lineal. Para la regresión de Lasso: los pasos de investigación son 2 pasos, que consisten en encontrar el mejor valor de K combinado con el mapa de trayectoria; ingrese el valor de K para el modelo de regresión. detalles de la siguiente manera:

Paso 1: Antes del análisis de regresión de Lasso, es necesario confirmar el valor de K en conjunto con el diagrama de trayectoria, el principio de selección del valor de K es el valor de K mínimo cuando el coeficiente de regresión estandarizado de cada variable independiente tiende a ser estable. Cuanto menor sea el valor de K, menor será la desviación. Cuando el valor de K es 0, es una regresión OLS lineal ordinaria; SPSSAU proporciona sugerencias inteligentes para el valor de K, y el valor de K también se puede seleccionar a través de la identificación y el juicio subjetivos;

Paso 2: Para el valor de K, cuanto más pequeño mejor, generalmente se recomienda que sea menor que 1. Después de determinar el valor de K, se obtiene la estimación del modelo de regresión de Lasso. El funcionamiento es el siguiente:

Aunque la regresión de cresta y la regresión de Lasso parecen funcionar de manera similar, los principios de las dos son bastante diferentes. La regresión de cresta usa la regularización L2 y la regresión de Lasso usa la regularización L1. Pongamos un ejemplo para ilustrar.

4. Ejemplos

Uso de regresión lineal para estudiar la relación entre el índice de precios al consumidor y y el precio al consumidor rural x1, el índice de precios al consumidor urbano x2 y el índice de precios minoristas de productos básicos x3. Los datos provienen del sitio web de la Oficina Nacional de Estadísticas de China ( los datos del caso se pueden descargar al final del artículo ).

1. Juicio de multicolinealidad

En primer lugar, juzgue si hay un problema de colinealidad en el modelo. Hay muchas maneras de juzgar la multicolinealidad. Aquí, el valor VIF se usa para juzgar. El resultado es el siguiente:

Se puede ver a partir de los resultados que los valores de VIF son todos mayores que 10, por lo que existe multicolinealidad y es necesario abordarla. Aunque hay muchas formas de abordar la multicolinealidad, aquí elegimos la regresión de cresta más utilizada para procesamiento _

2. Resolver la multicolinealidad

El uso de la regresión de cresta para tratar los problemas de multicolinealidad generalmente consta de dos pasos, como se indica a continuación:

  1. Antes del análisis de regresión de crestas, es necesario confirmar el valor de K junto con el diagrama de trazas de crestas; el principio de selección del valor de K es el valor de K mínimo cuando el coeficiente de regresión estandarizado de cada variable independiente tiende a ser estable. Cuanto menor sea el valor de K, menor será la desviación. Cuando el valor de K es 0, es una regresión OLS lineal ordinaria; SPSSAU proporciona sugerencias inteligentes para el valor de K, y el valor de K también se puede seleccionar a través de la identificación y el juicio subjetivos;
  2. Para el valor de K, cuanto más pequeño, mejor, generalmente se recomienda que sea menor que 1; después de determinar el valor de K, el valor de K se puede ingresar activamente para obtener la estimación del modelo de regresión de cresta.

Primero confirme el valor K en combinación con el diagrama de traza de la cresta:

El resultado es el siguiente:

En la figura anterior se puede ver que con el índice de precios al consumidor y como variable dependiente, el precio al consumidor rural x1, el índice de precios al consumidor urbano x2 y el índice de precios minoristas de productos básicos x3 como variables independientes, se realiza una regresión de cresta En la figura se puede observar que cuando el valor de K es 0,01, el coeficiente de regresión estándar de la variable independiente tiende a ser estable en este momento, por lo que el sistema SPSSAU recomienda que el valor de K sea 0,01.

Después de determinar el valor K, puede ingresar activamente el valor K para obtener la estimación del modelo de regresión de cresta. El resultado es el siguiente:

A partir de los resultados de la prueba F, se puede ver que el valor de p es inferior a 0,05, el modelo general es válido y al menos una x tiene un impacto en y, el modelo es significativo. Luego verifique los resultados de la regresión de la cresta, de la siguiente manera:

Como puede verse en los resultados de la regresión de cresta, la fórmula del modelo es: y=2,000 + 0,328*x1 + 0,559*x2 + 0,094*x3. Y x1, x2 y x3 tienen un impacto en la variable dependiente (los valores de p son todos menores que 0,05) y los coeficientes estandarizados son todos mayores que 0, por lo que el precio al consumidor rural x1, el índice de precios al consumidor urbano x2 y el índice de precios al por menor de productos básicos x3 todos afectan el precio al consumidor El índice y tiene un efecto positivo. Y 0.541>0.357>0.103, por lo que muestra que x2 tiene la mayor influencia en la variable dependiente. El R cuadrado del modelo es 0,999, que está cerca de 1, lo que indica que el modelo se ajusta muy bien.

V. Resumen

Este artículo primero presenta la multicolinealidad y luego explica cómo diagnosticar la multicolinealidad, incluido el método empírico, el método de prueba del coeficiente de correlación, el valor VIF y el método de juicio raíz característico, y cómo resolverlo si hay multicolinealidad. Las variables pueden eliminarse o el tamaño de la muestra puede se puede aumentar o se puede reemplazar el modelo.Se da un ejemplo para ilustrar cómo resolver la multicolinealidad, y el método de regresión de cresta se puede utilizar para resolverlo, y finalmente se puede obtener una conclusión efectiva.

datos:

Datos del caso de regresión de cresta spssau.com/spssaudata.html?shareData=D6D3308126BE028759A4AD6B0056D416

Supongo que te gusta

Origin blog.csdn.net/m0_37228052/article/details/129821131
Recomendado
Clasificación