Cómo elegir la variable dependiente correcta (variable de control) para que su modelo de medición ya no esté sucio

Cómo elegir la variable dependiente correcta (variable de control) para que su modelo de medición ya no esté sucio

Cualquiera que se dedique a la econometría presta atención a esta cuenta

Publicado por: [email protected]

Todos los programas de código, macro y micro bases de datos y varios software de la metodología del círculo econométrico se colocan en la comunidad Bienvenido a la comunidad del círculo econométrico para intercambios y visitas.
Cómo elegir la variable dependiente correcta (variable de control) para que su modelo de medición ya no esté sucio

Hace unos días, presentamos ① "200 artículos utilizados en la investigación empírica, un conjunto de herramientas para académicos de las ciencias sociales", ②50 publicaciones de experiencias famosas que se usan comúnmente en la redacción de artículos empíricos, una serie de lecturas obligatorias para los estudiantes, ③AER en los últimos 10 años El álbum de artículos sobre temas chinos, ④AEA anunció los diez temas de investigación principales que recibieron la mayor atención en 2017-19 y le brinda la dirección de la selección de temas, ⑤La dirección de selección de temas clave de las principales revistas chinas en 2020, solo escríbalos para escribir documentos. Más tarde, presentamos una colección de artículos seleccionados para investigación empírica utilizando datos CFPS, CHFS y CHNS. , ②Estas 40 micro-bases de datos son suficientes para su doctorado, de todos modos, confiando en estas bibliotecas para convertirse en profesor, ③¡La colección más completa de teclas de acceso directo en la historia del software Python, Stata, R! , ④ ¡100 álbumes de artículos seleccionados sobre diseño de regresión de punto de interrupción (difuso)! , ⑤ ¡32 artículos seleccionados de DID sobre el método de la doble diferencia! , ⑥ ¡33 artículos seleccionados de SCM sobre el método de control de síntesis! ⑦¡Recopilación de los últimos 80 artículos sobre el campo del comercio internacional de China! ⑧¡Recopilación de 70 artículos económicos recientes sobre la ecología ambiental de China! ⑨Una colección de artículos seleccionados utilizando investigación empírica de bases de datos CEPS, CHARLS, CGSS, CLHLS. ⑩Recopilación de los últimos 50 artículos utilizando el sistema GMM para realizar investigaciones empíricas! Estos artículos han sido bien recibidos y discutidos por académicos, y los supervisores de doctorado los han recomendado a los estudiantes.


Nota de texto : La palabra "predictor" a continuación es predictor en inglés, que es lo que normalmente llamamos variables independientes. El título debe ser para seleccionar la variable independiente correcta (variable de control)

Incluso si solo hay unas pocas variables predictoras para elegir, hay innumerables formas de especificar las variables en el lado derecho de la ecuación de regresión. ¿Cómo decidir qué variables de control incluir? La consideración más importante al seleccionar variables es su relevancia teórica. Cuando agrega variables sin una teoría razonable (también conocida como "regresión más rápida de lo que cree"), muchas cosas salen mal. Por supuesto, la definición de "suena razonable" es un poco vaga y también puede causar daño si elimina demasiadas variables.

Los siguientes puntos ilustran las compensaciones involucradas en la identificación del modelo.

1. Fregadero de cocina
No hay duda de que encontrará el regreso de un "Fregadero de cocina" que contiene decenas de variables. Esto generalmente indica que el investigador ha tenido muerte cerebral, arrojando todos los predictores disponibles en el modelo, independientemente del efecto que realmente tengan. Si hay miles de predictores en el conjunto de datos, ¿quién sabe qué hará el investigador? (¡Sin mencionar la forma exponencial y la posibilidad de términos de interacción!)

Un poco de prueba y error está perfectamente bien. Después de todo, a veces un problema es tan nuevo que no tenemos ninguna teoría que nos oriente en el modelado. O a veces sabemos que queremos un cierto tipo de variable (por ejemplo, un cierto nivel de educación), pero no sabemos la mejor manera de medirlo (por ejemplo, "porcentaje de población con educación universitaria" versus "población con porcentaje de educación superior ".). Aun así, asegúrese de resistir la tentación tanto como sea posible y no incluya todas las variables que conoce. La regresión del fregadero de la cocina reducirá la precisión de la regresión e incluso producirá resultados engañosos.

Utilizo el término variable basura para describir una variable incluida en la regresión, solo porque está en su conjunto de datos, no por su relevancia teórica. Conocemos una razón práctica para no dejar variables basura en la regresión: agregar variables arbitrarias consume preciosos grados de libertad (gl). Esto reducirá la precisión de todas las estimaciones de predictores válidas (es decir, aumentará el error estándar). Este efecto de "imprecisión no deseada" es especialmente notable cuando no tiene una gran cantidad de observaciones.

Aquí hay algunas reglas prácticas valiosas:

1) No use más de un predictor por cada 5 observaciones si tiene un buen modelo predictivo (la mayoría de los predictores son significativos).

2) No tiene más de un predictor por cada 10 observaciones si tiene un modelo más débil (pocos predictores significativos) o si está experimentando con muchas variables basura.

3) Puede tomarse un respiro si tiene variables categóricas. Trate cada categoría incluida como la mitad de un predictor normal.

Hay más razones para no permitir que las variables basura entren en su ecuación de regresión

Cuando introduce variables basura, incluso si tiene suficientes gl para hacer descubrimientos importantes, existen al menos tres problemas potenciales:

1) Debido a la aleatoriedad, las variables basura pueden ser estadísticamente significativas . Si introduce 10 variables basura, existe un 40% de probabilidad de que al menos una de ellas sea significativa, pero esto se debe a la aleatoriedad. Si alguien intenta reproducir sus hallazgos con datos diferentes, generalmente no podrá reproducir sus resultados basura. Sus métodos de mala calidad estarán expuestos a todos.

2) La variable basura relacionada con otra variable predictora válida también puede tener una fuerte correlación con la variable del lado izquierdo de la ecuación . Esto puede hacer que la variable de predicción efectiva deje de ser significativa, por lo que puede excluirla del modelo. (Esto está relacionado con la multicolinealidad). Cuanto más grande sea el fregadero de la cocina, es más probable que esto suceda.

3) Agregar algunas variables al modelo puede afectar su interpretación de los coeficientes de otras variables . Esto sucede cuando la variable del lado derecho de una ecuación es en sí misma una función de otra variable. Este problema no es tan grave como (1) y (2), pero debe tener cuidado al describir sus hallazgos.

¿Qué sucede cuando las variables del lado derecho de la ecuación son funciones entre sí? Aquí hay un ejemplo:

Cómo elegir la variable dependiente correcta (variable de control) para que su modelo de medición ya no esté sucio

Cómo elegir la variable dependiente correcta (variable de control) para que su modelo de medición ya no esté sucio

Cómo elegir la variable dependiente correcta (variable de control) para que su modelo de medición ya no esté sucio

Cómo elegir la variable dependiente correcta (variable de control) para que su modelo de medición ya no esté sucio

2. Acción
Cuando realiza un análisis de regresión, desea suficiente información en los datos para calcular con precisión cómo los cambios en X afectan a Y. Para captar intuitivamente cuánta información hay en los datos, cada valor de observación de X e Y se considera un experimento. Si X no cambia mucho entre un experimento y el siguiente, entonces no hay mucha información en los datos, por lo que es difícil determinar con precisión el efecto de los cambios de X en Y.

Por lo tanto, los buenos predictores tienen acciones: varían mucho entre observaciones. Siempre debe verificar los cambios en cada valor de pronóstico clave, por ejemplo, calculando su rango y error estándar. También debe dibujar una gráfica bidimensional de cada predictor clave y variable dependiente. El valor extremo del valor predicho puede afectar la regresión. Cuando el valor predicho se mueve del valor más bajo al valor más alto, ¿Y cambia mucho? Este gráfico debe predecir los resultados de la regresión (recuerde, un gráfico simple de dos vías oscurece la influencia de las variables de control).

Variación y multicolinealidad

Ha llegado el momento de solucionar el problema de la multicolinealidad excesivamente exagerada. Suponga que tiene dos variables predictoras, X y Z, y una variable dependiente Y. Cuando verifique los datos, encontrará que X, Y y Z se mueven todos juntos. (Es decir, tienen una alta correlación). Ahora está bastante seguro de que X o Z afectarán a Y, tal vez a ambos. Pero no puede estar seguro de cuál es más importante. Desafortunadamente, es posible que la computadora no pueda resolver este problema. Esto es multicolinealidad.

Utilicemos el concepto de cambio para comprender mejor la multicolinealidad. Si X y Z están altamente correlacionados, entonces sus "experimentos" no son independientes. Esto hace que sea difícil determinar cuál causó el movimiento relevante en Y. Por lo tanto, si incluye ambos en la regresión, la computadora reportará un gran error estándar alrededor de su coeficiente estimado, porque no puede determinar qué predictor es realmente importante.

Una revelación directa es que es posible obtener un R2 alto, ¡pero no tiene ningún efecto predictivo importante! Sumar X y Z juntos puede predecir Y bien, pero la computadora no puede determinar cuál es el factor de influencia real, por lo que R2 es muy alto, aunque el nivel de significancia es muy bajo. En otros casos, la computadora puede reportar un gran coeficiente positivo en una variable predictora relacionada y un gran coeficiente negativo en otra variable predictora relacionada. Este tipo de "cambio de signo" a menudo ocurre cuando dos variables son básicamente iguales y la computadora usa las diferencias sutiles entre ellas para ajustar algunos valores atípicos.

Signos de multicolinealidad

Aunque no existe una prueba de multicolinealidad definida, todavía hay algunas cosas que merecen nuestra atención:

1) Encuentra que dos o más variables relacionadas tienen coeficientes insignificantes cuando ingresan al modelo conjuntamente en la regresión, pero cada vez que solo una ingresa al modelo, cada variable tiene un coeficiente significativo.

2) Una prueba F muestra que dos variables relacionadas aumentan el poder predictivo del modelo, aunque ninguna tiene coeficientes significativos.

3) Las variables tienen el mismo signo cuando ingresan al modelo por separado, pero tienen signos opuestos cuando ingresan al modelo al mismo tiempo.

4) Después de ejecutar la regresión, puede dejar que se calcule el "factor de inflación de la varianza VIF".

Si hay un problema con la multicolinealidad, hay varias opciones:

1) Mantenga todas las variables; recuerde que sus coeficientes son insesgados, pero no precisos. Tu modelo sigue siendo muy predictivo.

2) Abandonar una de las variables problemáticas.

3) Cree una puntuación compuesta, un indicador de medición único que capture información en variables relacionadas.

3. El problema de las variables faltantes
Al elegir las variables del lado derecho de la ecuación, hay demasiadas razones para un modelo simplificado, por lo que puede intentar usar solo una variable predictora para ejecutar la regresión. Ahora es el momento de poner las cosas en el ángulo correcto y recordar por qué queremos agregar variables de control.

1) Mejora la capacidad predictiva del modelo y en el proceso mejora la precisión de la estimación.

2) La exclusión de variables relacionadas puede sesgar los coeficientes hacia las variables incluidas en el modelo. En otras palabras, debido a las desviaciones de las variables faltantes, el valor informado por computadora es sistemáticamente más alto o más bajo que el valor real.

Lidiar con las desviaciones variables faltantes

Parece que la omisión de las desviaciones variables acechará cada regresión. Después de todo, es imposible obtener datos sobre todos los factores que afectan a la variable dependiente. Hasta cierto punto, esto es cierto, por lo que siempre consideramos posibles desviaciones en las regresiones. Afortunadamente, la falta de desviaciones de variables suele ser un problema manejable por tres razones:

1) Solo cuando las variables faltantes estén relacionadas con las variables incluidas en el modelo y sean importantes en sí mismas, se obtendrán los coeficientes sesgados. Si ninguna de estas dos condiciones es cierta, no hay desviación.

2) Incluso si hay un problema de falta de variables, se puede determinar la dirección de la desviación. Esto nos permitirá declarar que el coeficiente informado es el límite superior o inferior del efecto real.

3) Pensar en la desviación de las variables omitidas nos obliga a identificar primero seriamente el modelo económico correcto y hacer un buen trabajo en la selección de variables.

4. Desviación endógena
Si la variable del lado derecho de la ecuación está relacionada con el error del modelo original, se denomina variable endógena. En términos generales, nos resulta difícil interpretar los coeficientes de los predictores endógenos. Pueden ser parciales y / o imposibles de sacar conclusiones causales.

Cómo elegir la variable dependiente correcta (variable de control) para que su modelo de medición ya no esté sucio

En cuanto al problema de la endogeneidad y sus soluciones, hemos recomendado muchos artículos para académicos. Por ejemplo, después de leer los artículos de revistas más importantes, compilamos un folleto sobre el tratamiento de la endogeneidad: 1. ¿Qué diablos es la "endogeneidad"? 2. El problema de endogeneidad del método de dos pasos de Heckman (IV-Heckman); 3. Pasos de estimación relacionados con IV y GMM, endogeneidad, heteroscedasticidad y otros métodos de prueba; 4. El método de estimación más completo para resolver la desviación de las variables faltantes, internas Naturaleza, variables de confusión y cuestiones relacionadas 5. ¡Algunas variables instrumentales interesantes en el artículo de Mao Guru! 6. Soluciones endógenas en el modelo de panel no lineal; 7. El arma secreta de la estimación de variables instrumentales de procesamiento endógeno; 8. Métodos de procesamiento endógeno y progreso; 9. Problemas endógenos y emparejamiento por puntaje de propensión; 10. Su salida endógena, ERM lidera el camino ; 11. Variable instrumental IV obligada lectura 20 artículos, la identificación causal depende de él; 12. ¿Cómo tratan los datos de panel la endogeneidad; 13. Visión general de la endogeneidad en el análisis cuantitativo; 14. Interpretación de la variable instrumental IV y procesamiento endógeno; 15. Un mapa mental de procesamiento endógeno que cambia la investigación empírica; 16. Métodos de procesamiento endógeno de diferentes fuentes en las principales revistas; 17. Métodos y procedimientos de Heckman en datos de panel (xtheckman); 18. Método de función de control CF, un método generalizado para lidiar con la endogeneidad ; 19. Método de prueba de endogeneidad del modelo de elección binaria; 20.2SRI o 2SPS, la realización del método de CF de dos etapas para problemas de endogeneidad; 21. El término de interacción de variables endógenas Cómo encontrar variables instrumentales; 22. Interpretación incisiva de variables instrumentales, para asegurarse de que nunca los olvidará. Además, hay muchos artículos relacionados con esto, por lo que se recomienda que los académicos busquen contenido relevante de acuerdo a sus propias necesidades.

5. Un método razonable de modelado de regresión El
siguiente método equilibra los problemas de "fregadero de cocina" y "desviación de variable faltante". Es posible que le esté yendo peor que seguir estos pasos:

1) Siempre comience con un conjunto de predictores "centrales" con relevancia teórica y cualquier predictor que sea de particular interés para usted. En este punto, puede estimar un modelo OLS "rápido y sucio".

2) Finalice el problema de construcción del modelo (por ejemplo, logarítmico y lineal).

3) Agregue otros predictores que crea que pueden ser relevantes. Puede agregar una a la vez o una "categoría" a la vez. Compruebe la solidez que encontró inicialmente.

4) Al agregar predictores, todos los predictores originales del modelo deben conservarse, incluso si no son significativos. Recuerde, las desviaciones de las variables omitidas pueden hacer que los valores pronosticados significativos no parezcan importantes. Al agregar más variables, sus predictores clave pueden volverse importantes.

5) En este punto, debe conocer su sólido descubrimiento. Este es el principal objetivo de su investigación.

6) Si insiste en generar un "modelo final", debe eliminar los predictores adicionales que no sean estadísticamente significativos.

7) Si las variables predictoras centrales aún no son significativas y necesita más grados de libertad, también puede eliminarlas.

6. El problema de agrupar variables
Muchas variables predictoras pueden dividirse claramente en grupos: temporadas, precios de la competencia, demografía del consumidor y 50 estados. Por lo general, desea determinar si se debe colocar un conjunto de variables predictoras en la ecuación de regresión. ("¿Importa la estacionalidad?" ¿Importa el precio de la competencia? Los analistas a menudo verifican los coeficientes de cada variable predictiva en un conjunto individualmente y mantienen esos coeficientes importantes. Esto es un error, y lo explicaré ahora.
Cómo elegir la variable dependiente correcta (variable de control) para que su modelo de medición ya no esté sucio

La forma correcta de probar un conjunto de variables es realizar una "prueba F parcial", también conocida como prueba de Chow, que compara la capacidad predictiva del modelo con y sin considerar todas las variables. Si el grupo de variables no aumenta el poder predictivo en conjunto, entonces no se puede rechazar la hipótesis nula de que este grupo es irrelevante.
Stata puede hacer la prueba F por nosotros. Suponga que desea saber si las variables X2 y X3 deben agregarse al modelo que contiene la variable X1. Simplemente escriba:


regress Y X1 X2 X3
test X2 X3

Cómo elegir la variable dependiente correcta (variable de control) para que su modelo de medición ya no esté sucio

Cómo elegir la variable dependiente correcta (variable de control) para que su modelo de medición ya no esté sucio

Lectura extendida

Con respecto al problema endógeno y sus soluciones, hemos recomendado muchos artículos para académicos. Por ejemplo: Después de leer los artículos de revistas más importantes, compilamos el folleto de tratamiento endógeno; 1. ¿Qué diablos es la "endogeneidad"? New Yorker te lo dice; 2. Problema endógeno del método de dos pasos de Heckman (IV-Heckman); 3. Pasos de estimación relacionados con IV y GMM, endogeneidad, heteroscedasticidad y otros métodos de prueba; 4. El método de estimación más completo para resolver la desviación de las variables faltantes, endogeneidad, Variables confusas y temas relacionados 5. ¡Algunas variables instrumentales interesantes en el artículo de Mao Gulu! 6. Soluciones endógenas en el modelo de panel no lineal; 7. El arma secreta de la estimación de variables instrumentales de procesamiento endógeno; 8. Métodos de procesamiento endógeno y progreso; 9. Problemas endógenos y emparejamiento por puntaje de propensión; 10. Su salida endógena, ERM lidera el camino ; 11. Variable instrumental IV obligada lectura 20 artículos, la identificación causal depende de él; 12. ¿Cómo tratan los datos de panel la endogeneidad; 13. Visión general de la endogeneidad en el análisis cuantitativo; 14. Interpretación de la variable instrumental IV y procesamiento endógeno; 15. Un mapa mental de procesamiento endógeno que cambia la investigación empírica; 16. Métodos de procesamiento endógeno de diferentes fuentes en las principales revistas; 17. Métodos y procedimientos de Heckman en datos de panel (xtheckman); 18. Método de función de control CF, un método generalizado para lidiar con la endogeneidad ; 19. Método de prueba de endogeneidad del modelo de elección binaria; 20.2SRI o 2SPS, la realización del método de CF de dos etapas para problemas de endogeneidad; 21. El término de interacción de variables endógenas Cómo encontrar variables instrumentales; 22. Interpretación incisiva de variables instrumentales, para asegurarse de que nunca los olvidará. Además, hay muchos artículos relacionados con esto, por lo que se recomienda que los académicos busquen contenido relevante de acuerdo a sus propias necesidades.

Anteriormente, nuestro grupo recomendó 1. DID usó literatura clásica, licencia obligatoria: evidencia de la ley comercial del enemigo, 2. Continua literatura clásica DID, las papas hicieron la civilización del viejo mundo, 3. Datos de sección transversal DID descripción, sección transversal doble El paradigma de la evaluación diferencial de políticas, 4. Literatura clásica de RDD, prueba de validez y robustez del modelo de RDD, 5. Método de investigación de eventos utilizado en la literatura clásica de DID, datos y procedimientos en papel de "regulación ambiental", 6. El método DID generalizado es una literatura de JHE muy clásica , 7. La literatura clásica de DID, "licencia obligatoria", datos en papel y programa do, 8. Actividades de MLM sobre desarrollo económico, texto clásico de análisis de datos transversales de AER, 9. Literatura clásica de DID de múltiples temas, datos de grandes bancos malos y documentos, 10 Método de inferencia causal IV literatura clásica, ¿es el sistema o el capital humano el que promueve el desarrollo económico? , 11. El establecimiento de causalidad en AER, pruebas de sensibilidad, análisis de heterogeneidad y uso de datos cruzados artículos clásicos, 12. ¿El segundo clásico de inferencia causal, el impacto de la interrupción del trabajo en la productividad posterior de los trabajadores? , 13. Density Economics: Natural Experiments from the Berlin Wall, Best Econometrica Papers, 14. Labor and Health Economics with DID and DDD as Identification Strategies on AER, 15. Un método de evaluación de políticas que utiliza datos transversales, también disponible Enviar AER, 16. Literatura clásica del modelo DID de múltiples períodos, grandes bancos malos explican ",", 17. Literatura clásica DID de múltiples períodos, archivos de datos y do de grandes bancos malos, 18. DID no lineal, modelo de doble transformación CIC, cuantil El número de DID generalmente es bienvenido por los supervisores de doctorado y se comparte con los estudiantes bajo su guía.

Los siguientes artículos con enlaces cortos pertenecen a una colección, puede recopilarlos y leerlos, o no los encontrará en el futuro.
En 2 años, se publicaron cerca de 1.000 artículos en la cuenta oficial del círculo econométrico,

Círculo de Econometría

Supongo que te gusta

Origin blog.51cto.com/15057855/2677890
Recomendado
Clasificación