Causalidad 6 - Estimación de efectos causales

Figura 1. Proceso de identificación-estimación

Como se muestra en la Figura 1, en los primeros dos capítulos aprendimos cómo identificar efectos causales y convertir cantidades causales en estadísticas.En este capítulo aprendemos cómo estimar efectos causales.

Primero recuerda los conceptos relevantes aprendidos antes.

ITE (efecto de tratamiento individual):

efectos causales individuales.

ITE = Y yo ( 1 ) − Y yo ( 0 ) ITE = Y_i(1) - Y_i(0)Yo te=Yyo( 1 )Yyo( 0 )

ATE (efecto de tratamiento promedio):

efecto causal medio

ATE = mi [ Y yo ( 1 ) − Y yo ( 0 ) ] ATE = E[Y_i(1) - Y_i(0)]UN =E[Yyo( 1 )Yyo( 0 )]

CATE (efecto de tratamiento promedio condicional):

Efecto causal promedio condicional, ATE corresponde a toda la población y CATE corresponde a subpoblación.

CATE = mi [ Y ( W = 1 ) ∣ X = x ] − E [ Y ( W = 0 ) ∣ X = x ] CATE = E[Y(W=1)|X=x] - E[Y(W =0)|X=x]C A T A=E [ Y ( W=1 ) ∣X _=x ]E [ Y ( W=0 ) ∣X _=x ]

En este capítulo, solo consideramos casos identificables por defecto, es decir, ambos satisfacen la inconfundibilidad y la positividad.

COM (modelado de resultados condicionales, modelado de resultados condicionales)

Figura 2. Idea de modelado intuitivo

De acuerdo con la fórmula de ajuste, se puede obtener que

τ = mi [ Y ( 1 ) − Y ( 0 ) ] = EW [ mi [ Y ∣ T = 1 , W ] − mi [ Y ∣ T = 0 , W ] ] \tau=E[Y(1)-Y (0)]=E_W[E[Y|T=1,W]-E[Y|T=0,W]]t=E[Y(1)Y ( 0 )]=miW[ mi [ y T=1 ,W ]mi [ y v=0 ,W ]] , para estimar el efecto causal, la idea más directa es modelar las dos expectativas que se muestran en la Figura 2. El modelo específico puede ser varios métodos, como la regresión lineal y la red neuronal.

Figura 3. Modelo tras modelado

La fórmula después del modelado se puede convertir en la forma que se muestra en la Figura 3, y transformada aún más, se puede obtener

Estimador ATE COM: τ ^ = 1 norte ∑ yo ( μ ^ ( 1 , wi ) − μ ^ ( 0 , wi ) ) \hat{\tau}=\frac{1}{n}\sum_i(\hat{\ mu}(1,w_i)-\hat{\mu}(0,w_i))t^=norte1yo(metro^( 1 ,wyo)metro^( 0 ,wyo))

i representa cada muestra y n representa el número de muestras.

Esta es la expresión de ATE, y podemos llevarla aún más a la expresión de CATE:

μ ( t , w , x ) = mi [ Y ∣ T = t , W = w , X = x ] \mu(t,w,x)=E[Y|T=t,W=w,X=x ]m ( t ,w ,x )=mi [ y v=t ,W=w ,X=x ] (W es el conjunto de ajuste, X es la variable de la que depende el subgrupo, es decir, la condición de CATE)

CATE COM Estimador:τ ^ ( x ) = 1 nx ∑ i : xi = x ( μ ^ ( 1 , wi , x ) − μ ^ ( 0 , wi , x ) ) \hat{\tau}(x)=\ fracción{1}{n_x}\sum_{i:x_i=x}(\hat{\mu}(1,w_i,x)-\hat{\mu}(0,w_i,x))t^ (x)=nortex1yo : xyo= x(metro^( 1 ,wyo,x )metro^( 0 ,wyo,x ))

Problema con la estimación de COM en dimensiones altas

Este modelo COM simple encontrará un problema cuando sea de alta dimensión, como se muestra en la Figura 4, si ajustamos T y W en el modelo, entonces habrá un problema, T es unidimensional, en relación con W de alta dimensión. se ignora fácilmente en el ajuste del modelo. El τ ^ \hat{\tau} obtenidot^ estará cerca de 0.

Figura 4. El problema de COM en alta dimensión

Estimación COM agrupada (GCOM)

Para resolver los problemas anteriores, GCOM propone una estrategia simple, como se muestra en la Figura 5, usando directamente dos modelos μ 0 \mu_0metro0μ 1 \mu_1metro1Ajuste dos conjuntos de datos en T=1 y T=0 respectivamente.

Figura 5. GCOM

El problema con esto es que en μ 1 \mu_1metro1El dato de T=0 no se usa en el modelo, pero en μ 0 \mu_0metro0En el modelo tampoco se utiliza el dato de T=1, y el resultado obtenido es τ ^ \hat\taut^ tendrá una gran variación.

Aumento de la eficiencia de los datos

Para hacer un mejor uso de todos los datos, seguimos aprendiendo dos algoritmos.

TARNet

TARNet resume la situación de COM y GCOM, elige ajustar el modelo primero de acuerdo con los datos W y luego se divide en dos pequeñas subredes para ajustar los datos de T=0 y T=1 respectivamente, como se muestra en la Figura 6.

Figura 6. TARNet

Aunque este modelo mejora la eficiencia de utilización de los datos en comparación con COM, todavía no utiliza todos los datos de la subred.

X-aprendiz

Para mejorar la eficiencia en la utilización de datos, X-Learner primero estima μ ^ 1 ( x ) \hat{\mu}_1(x)metro^1( x )μ ^ 0 ( x ) \hat{\mu}_0(x)metro^0( x ) (similar al primer paso de GCOM) Luego, a diferencia de la estimación directa de grupos de GCOM, las dos funciones obtenidas en el primer paso se combinan con los datos para calcular ITES y grupos de procesos: τ ^ 1 , i = Y i( 1 ) − μ ^ 0 ( xi ) \hat{\tau}_{1,i}=Y_i(1)- \hat{\mu}_0(x_i)t^1 , yo=Yyo( 1 )metro^0( Xyo) , pares de contraste:τ ^ 0 , i = μ ^ 1 ( xi ) − Y i ( 0 ) \hat{\tau}_{0,i}=\hat{\mu}_1(x_i)-Y_i(0 )t^0 , yo=metro^1( Xyo)Yyo( 0 ) . El τ \tauobtenidoτ incrusta la información de todos los datos, y finalmente laτ \tauτ realiza una reponderación y el proceso completo se muestra en la Figura 7.

Figura 7. X-Learner

Un punto muy interesante de este modelo es que toma el puntaje de propensión para x y la función τ ( x ) \tau(x) para xτ ( x ) para el equilibrio, hay una suposición oculta detrás de esto, que esτ ( x ) \tau(x)La función τ ( x ) no cambia su relación de sesgo de confusión.

Entonces, en el aprendizaje de representación, ¿se puede suponer también que después de la representación de la red neuronal, también se puede realizar el sesgo de confusión de blance? Por ejemplo, si hay 10 prototipos, establecemos los otros 9 prototipos como X y el restante como T, y luego calculamos el efecto causal de T en el resultado.

El puntaje de propensión se menciona al final de la Figura 7, aprendámoslo.

Puntaje de propensión

Los puntajes de propensión, cuyo propósito es simple, hacen que el mecanismo de asignación de tratamientos satisfaga la aleatoriedad mediante la asignación de pesos.

mi ( W ) ≜ PAGS ( T = 1 ∣ W ) e(W)\triangleq P(T=1|W)mi ( W )P ( T=1∣ W )

A partir de esto, se puede obtener la teoría del puntaje de propensión.El punto clave de este método es reemplazar el vector de alta dimensión W con un escalar e(W). Como se muestra en la Figura 8, la distribución del efecto de W en T es P(T|W), luego use directamente una función e(W) para ajustar P(T|W), puede reemplazarla directamente con el escalar e( W) W arriba.

En otras palabras, si W puede bloquear el camino de la puerta trasera de T a Y, entonces e(W) también puede hacerlo.

Una definición más formal es la siguiente:

Teorema de puntuación de propensión

Si W satisface la positividad y la ausencia de confusión, entonces

( Y ( 1 ) , Y ( 0 ) ) ⊥ ⁣ ⁣ ⁣ ⊥ T ∣ W = > ( Y ( 1 ) , Y ( 0 ) ) ⊥ ⁣ ⁣ ⁣ ⊥ T ∣ e ( W ) (Y(1), Y (0)){\perp\!\!\! \perp}T|W =>(Y(1), Y(0)){\perp \!\!\! \perp}E|e(W)( Y ( 1 ) ,Y ( 0 )) T W=>( Y ( 1 ) ,Y ( 0 )) T mi ( W )

¿Cómo se puede demostrar esto en estudios observacionales?

Figura 8. Puntaje de propensión

Si aún recuerda el contenido del Capítulo 2, encontrará que e(W) tiene otra ventaja, es decir, su reducción de dimensionalidad mejora la capacidad de positividad.

Ponderación de probabilidad inversa (IPW)

Figura 9. Intuición IPW

También denominado IPTW (probabilidad inversa de la ponderación del tratamiento).

τ ≜ mi [ Y ( 1 ) − Y ( 0 ) ] = mi [ 1 ( T = 1 ) Y y ( W ) ] − mi [ 1 ( T = 0 ) Y 1 − mi ( W ) ] \tau \triangleq E[Y(1)-Y(0)] = E[\frac{1(T=1)Y}{e(W)}]-E[\frac{1(T=0)Y}{1- e(A)}]tE[Y(1)Y ( 0 )]=mi [mi ( W )1 ( T = 1 ) Y]mi [1 - mi ( W )1 ( T = 0 ) Y]

τ ^ = 1 norte 1 ∑ yo : ti = 1 yie ^ ( wi ) − 1 norte 0 ∑ yo : ti = 0 yi 1 − mi ^ ( wi ) \hat{\tau}=\frac{1}{n_1} \sum_{i:t_i=1}\frac{y_i}{\hat{e}(w_i)} - \frac{1}{n_0}\sum_{i:t_i=0}\frac{y_i}{1- \hat{e}(w_i)}t^=norte11yo : tyo= 1mi^ (wyo)yyonorte01yo : tyo= 01 -mi^ (wyo)yyo

Este método tiene dos desventajas principales,

  1. Se basa demasiado en el puntaje de propensión, y si hay una ligera desviación en e(x), el error de ipw aumentará considerablemente. Para resolver este problema, hay dos formas:

    1. Compensar cuando e(x) se desvía (como ajustar la regresión de resultados, DR)

    2. Mejorar la robustez (CBPS) de la propia estimación de e(x).

  2. Cuando el puntaje de propensión es demasiado pequeño, IPW se vuelve muy inestable.

Otros metodos

Métodos doblemente robustos (DR): combinación de COM y propensity score

Emparejamiento;aprendizaje automático doble;árboles y bosques causales

Referencia

Introducción a la inferencia causal

Supongo que te gusta

Origin blog.csdn.net/euzmin/article/details/120428622
Recomendado
Clasificación