Compilación del sesgo de selección de la muestra frente al sesgo de autoselección en el tema principal y cómo abordarlo

Compilación del sesgo de selección de la muestra frente al sesgo de autoselección en el tema principal y cómo abordarlo

Cualquiera que se dedique a la econometría presta atención a esta cuenta

Correo electrónico: [email protected]

Todos los programas de código, macro y micro bases de datos y varios softwares de la metodología del círculo econométrico se colocan en la comunidad. Bienvenidos a la comunidad del círculo econométrico para intercambios y visitas.
Compilación del sesgo de selección de la muestra frente al sesgo de autoselección en el tema principal y cómo abordarlo
Foto cortesía: bing.com
Hace unos días, presentamos "CSMAR all ¡Todos los productos de datos se pueden descargar de forma gratuita! ", Acogió con agrado los académicos en el campo de la gestión financiera. Hay tres bases de datos chinas importantes en el campo financiero, CSMAR, CCER, Wind y CNRDS. La base de datos CSMAR dejará de ser gratuito el 29 de febrero, por lo que los académicos que quieran utilizar esta base de datos deben acelerar el progreso. El 19 de febrero, presentamos la "Base de datos de EPS durante el período epidémico de forma gratuita para toda la sociedad. ¡Con guía de usuario detallada!", Que fue elogiada por académicos de gestión económica en el país y en el extranjero, y su personal envió el "Manual de usuario de EPS para la última versión". El 20 de febrero, presenté tres cursos de medición a los académicos y expliqué sistemáticamente la última inferencia causal, series de tiempo, datos de panel, etc. y el proceso de implementación en Stata (para obtener más detalles, consulte el curso de medición gratuito durante el período epidémico. Panel de datos, causalidad) Inferencia, análisis de series de tiempo y aplicación de Stata). El 21 de febrero, presenté dos guías de uso de la base de datos a los académicos durante el período de la epidemia. La Guía de operación de la terminal financiera de información eólica y la Guía de operación de la base de datos CEIC. Consulte "¿Qué son las bases de datos de administración económica y ciencias sociales de la Universidad de Tsinghua Pekín? ! ". El 22 de febrero se introdujo el "Modelo de regresión de Poisson estimado con dos efectos fijos de alta dimensión", que incluía regresión de Poisson de panel, regresión binomial negativa de panel, método de función de control CF, spline cúbico restringido, etc.
Antes de referirse a este artículo, los académicos pueden referirse primero a estos artículos: 1. El modelo de Heckman está descartado y el modelo de transformación endógena controla la situación general. 2. ¿Qué tan grave es la omisión de variables no observables en la inferencia causal? A través de la detección de variables observables , 3. DID continuo, DDD y DID proporcional, sesgo de selección no observable, 4. La estimación de emparejamiento es el último método de prueba de sensibilidad, por lo que las opciones basadas en variables no observables no tienen dónde esconderse, 5. ¿Qué es el método de dos pasos de Heckman? ? y sus problemas endógenos?, 6. Debe leer | El impacto del sesgo de la variable faltante en la inferencia causal y las posibles soluciones en varios métodos de evaluación de políticas, 7. El método de estimación más completo, para resolver el sesgo de la variable faltante, la endogeneidad y las variables de confusión y problemas relacionados, 8. Ignorar los factores de interferencia, la endogeneidad, las desviaciones de las variables faltantes y la estimación de los problemas relacionados, 9. Guía de funcionamiento para los problemas de endogeneidad, 22 artículos de amplia circulación, 10. Después de leer los principales artículos de revistas, clasifique el tratamiento de la endogeneidad Folleto
1 . Sesgo de selección

La endogeneidad basada en la selección se manifiesta principalmente de dos formas: la selección de la muestra y el sesgo de autoselección. El trabajo básico de Heckman (1976, 1979) se basa principalmente en el problema de la selección de la muestra. Dado que la muestra puede no representar una población real, afectará la validez interna y externa de los resultados de la estimación. Berk (1983) gran parte de los problemas anteriores Buen comentario. Sin embargo, Heckman (1979) también era consciente de un problema de autoselección similar y observó que comparar directamente los salarios de los aprendices de administración con los de los no aprendices puede conducir a estimaciones sesgadas de los efectos del procesamiento. En el contexto de la autoselección, el sesgo de estimación no proviene del problema de la selección de la muestra (es decir, no hay sesgo dentro del alcance de la muestra en estudio), sino que el individuo en estudio se basa en algunos inobservables (inobservables ) y selecciona y asigna de forma autónoma al grupo de procesamiento y al grupo de control que se excluyen mutuamente. Por ejemplo, las características de los empleados que no pueden ser observadas por los investigadores (como la diligencia, la inteligencia innata, etc.) pueden determinar la elección de los proyectos de aprendices gerenciales y los salarios futuros al mismo tiempo. Por lo tanto, se estima que los parámetros de la relación entre participar en proyectos de aprendices y los salarios futuros de los gerentes, pueden verse afectados por el efecto de confusión de participar en el proceso de selección de proyectos de aprendices. De hecho, Wooldridge (2002) cree que la autoselección es una fuente común de sesgo de variables omitidas en la investigación empírica en ciencias sociales y del comportamiento.

1.1 Sesgo de selección de la muestra

Antes de seguir discutiendo el problema del sesgo de autoselección, primero debemos comprender algunas cuestiones relacionadas con el sesgo de selección de la muestra, que proporciona la lógica básica para modelos de selección más complejos. Cuando los investigadores utilizan muestras seleccionadas de forma no aleatoria para estimar la causalidad, puede producirse un sesgo de selección de la muestra. Este problema a menudo ocurre en la práctica por dos razones: ①Cuando la unidad de observación toma una decisión para evitar que se observe un subconjunto de una población en particular; ②Los analistas y procesadores de datos toman decisiones sobre la muestra de datos de observación (Heckman, 1979). Por lo tanto, cuando hay censura en los datos, la situación en la que solo se observa una parte de las variables de resultado de la muestra real generalmente causará problemas de selección de la muestra. Por ejemplo, Heckman (1974) observó en su artículo de aplicación motivacional que la estimación de los rendimientos educativos de las mujeres implica problemas de selección de muestras y estimación de coeficientes sesgados, porque los investigadores solo observan el resultado de los salarios de las mujeres trabajadoras. Sin embargo, la decisión sobre el trabajo (es decir, elegir un empleo y, por lo tanto, elegir ingresar a una muestra) debe ser endógena y puede ser causada por algunos factores (pero ignorados) que determinan los salarios individuales. Por lo tanto, en una muestra tan seleccionada, el rendimiento estimado de la educación está sesgado y no puede representar el rendimiento promedio de la educación de toda la mujer.

1.2 Sesgo de autoselección

El sesgo de autoselección y el sesgo de selección de la muestra tienen propiedades diferentes En la investigación empírica de autoselección, no hay problema de que la variable dependiente no sea observable en algunas submuestras de la población. Por el contrario, en el problema de autoselección, la variable dependiente es observable en cada submuestra, pero el comportamiento de selección del individuo no es aleatorio en este momento. Lee (1978) usó los salarios de los trabajadores como ejemplo para estudiar el impacto del sindicalismo en los salarios. Tiene datos sobre los salarios de los trabajadores sindicalizados o no sindicalizados, por lo que no hay un problema de sesgo de selección de la muestra. Sin embargo, el comportamiento de los trabajadores al decidir si afiliarse a un sindicato es endógeno, porque los factores no observables (como inteligencia, contactos, etc.) afectarán la decisión de los trabajadores de afiliarse a un sindicato, pero dichos factores no observables también pueden afectar los salarios futuros. . Lee (1979: 977) resumió lo anterior, dijo que en este caso, "las decisiones y los resultados están interrelacionados". Sin embargo, si se utilizan técnicas de regresión estándar (como MCO) en el estudio empírico en este momento, el término de error violará el supuesto de que la media esperada es cero. En esencia, el problema de autoselección anterior se puede atribuir al problema de asignación no aleatoria del grupo de tratamiento (Antonakis et al., 2010). En la investigación de la gestión, las elecciones organizativas no se pueden asignar al azar al grupo de tratamiento y al grupo de control, sino que son una función de los gerentes que intentan mejorar el desempeño de la gestión, por lo que a menudo hay comportamientos de autoselección.

Nota: El enfoque aquí está en el problema de autoselección sobre la base no observable, no el problema de sub-selección sobre la base observable. En cuanto al problema de la autoselección sobre una base observable, para el procesamiento se suelen utilizar métodos de emparejamiento, como el PSM.
La siguiente es una recopilación de los problemas de sesgo de selección de muestras y de sesgo de autoselección y sus métodos de manejo que apareció en la revista de alta dirección SMJ.

1. El problema del sesgo de selección de la muestra (2004-2014) en la revista de alta dirección SMJ y cómo abordarlo:
Nota: Haga clic en la imagen para ampliarla.

Compilación del sesgo de selección de la muestra frente al sesgo de autoselección en el tema principal y cómo abordarlo

Compilación del sesgo de selección de la muestra frente al sesgo de autoselección en el tema principal y cómo abordarlo

Compilación del sesgo de selección de la muestra frente al sesgo de autoselección en el tema principal y cómo abordarlo

Compilación del sesgo de selección de la muestra frente al sesgo de autoselección en el tema principal y cómo abordarlo

Compilación del sesgo de selección de la muestra frente al sesgo de autoselección en el tema principal y cómo abordarlo

2. El problema del sesgo de autoselección (2004-2014) en la revista de alta dirección SMJ y cómo abordarlo:
Compilación del sesgo de selección de la muestra frente al sesgo de autoselección en el tema principal y cómo abordarlo

Compilación del sesgo de selección de la muestra frente al sesgo de autoselección en el tema principal y cómo abordarlo

Compilación del sesgo de selección de la muestra frente al sesgo de autoselección en el tema principal y cómo abordarlo

Compilación del sesgo de selección de la muestra frente al sesgo de autoselección en el tema principal y cómo abordarlo

Compilación del sesgo de selección de la muestra frente al sesgo de autoselección en el tema principal y cómo abordarlo

Fuente:
Clougherty, JA, Duso, T. y Muck, J. (2016). Corrección de la endogeneidad basada en la autoselección en la investigación de gestión: revisión, recomendaciones y simulaciones. Métodos de investigación organizacional, 19 (2), 286–347.

Lectura extensa de artículos seleccionados

Hace unos días, presentamos ① "200 artículos utilizados en la investigación empírica, un conjunto de herramientas para académicos de las ciencias sociales", ②50 publicaciones de experiencias famosas que se usan comúnmente en la redacción de artículos empíricos, una serie de lecturas obligatorias para los estudiantes, ③AER en los últimos 10 años El álbum de artículos sobre temas chinos, ④AEA anunció los diez temas de investigación principales que recibieron la mayor atención en 2017-19 y le brinda la dirección de la selección de temas, ⑤La dirección de selección de temas clave de las principales revistas chinas en 2020, solo escríbalos para escribir documentos. Más tarde, presentamos una colección de artículos seleccionados para investigación empírica utilizando datos CFPS, CHFS y CHNS. , ②Estas 40 micro-bases de datos son suficientes para su doctorado, de todos modos, confiando en estas bibliotecas para convertirse en profesor, ③¡La colección más completa de teclas de acceso directo en la historia del software Python, Stata, R! , ④ ¡100 álbumes de artículos seleccionados sobre diseño de regresión de punto de interrupción (difuso)! , ⑤ ¡32 artículos seleccionados de DID sobre el método de la doble diferencia! , ⑥ ¡33 artículos seleccionados de SCM sobre el método de control de síntesis! ⑦¡Recopilación de los últimos 80 artículos sobre el campo del comercio internacional de China! ⑧¡Recopilación de 70 artículos económicos recientes sobre la ecología ambiental de China! Estos artículos han sido bien recibidos y discutidos por académicos, y los supervisores de doctorado los han recomendado a los estudiantes.

Lectura ampliada para problemas endógenos

0. Después de leer los principales artículos de revistas, compilé el folleto de tratamiento de la endogeneidad; 1. ¿Qué diablos es la "endogeneidad"? New Yorker te dice; 2. El método de endogeneidad en dos pasos de Heckman (IV-Heckman); 3 .IV y Pasos de estimación relacionados con GMM, carácter endógeno, heterocedasticidad y otros métodos de prueba; 4. El método de estimación más completo para resolver la desviación de las variables faltantes, la endogeneidad, las variables de confusión y problemas relacionados; 5. ¡Algunas variables instrumentales interesantes en el artículo de Mao Guru! 6. Soluciones endógenas en el modelo de panel no lineal; 7. El arma secreta de la estimación de variables instrumentales de procesamiento endógeno; 8. Métodos de procesamiento endógeno y progreso; 9. Problemas endógenos y emparejamiento por puntaje de propensión; 10. Su salida endógena, ERM lidera el camino ; 11. Variable instrumental IV obligada lectura 20 artículos, la identificación causal depende de él; 12. ¿Cómo tratan los datos de panel la endogeneidad; 13. Visión general de la endogeneidad en el análisis cuantitativo; 14. Interpretación de la variable instrumental IV y procesamiento endógeno; 15. Un mapa mental de procesamiento endógeno que cambia la investigación empírica; 16. Métodos de procesamiento endógeno de diferentes fuentes en las principales revistas; 17. Métodos y procedimientos de Heckman en datos de panel (xtheckman); 18. Método de función de control CF, un método generalizado para lidiar con la endogeneidad ; 19. Método de prueba de endogeneidad del modelo de elección binaria; 20.2SRI o 2SPS, la realización del método de CF de dos etapas para problemas de endogeneidad; 21. El término de interacción de variables endógenas Cómo encontrar variables instrumentales; 22. Explicación incisiva de variables instrumentales, para asegurarse de que nunca los olvidará durante toda su vida.
Los siguientes artículos con enlaces cortos pertenecen a una colección, puede recopilarlos y leerlos, o no los encontrará en el futuro.
En 2 años, se publicaron cerca de 1.000 artículos en la cuenta oficial del círculo econométrico,

Círculo de Econometría

Supongo que te gusta

Origin blog.51cto.com/15057855/2677882
Recomendado
Clasificación