Variable instrumental

De Wikipedia, la enciclopedia libre
Ir a la navegación Ir a la búsqueda

En estadística, econometría, epidemiología y disciplinas afines, el método de variables instrumentales (VI) se utiliza para estimar relaciones causales cuando los experimentos controlados no son factibles.[1]

El método de variables instrumentales permite una estimación consistente cuando las variables explicativas (covariables) se correlacionan con los términos de error de la regresión. Dicha correlación puede ocurrir cuando la variable dependiente causa por lo menos una de las covariables (relación causal "inversa"), cuando hay variables explicativas relevantes que se han omitido en el modelo, o cuando las covariables están sujetas a errores de medición. En esta situación, la regresión lineal generalmente produce estimaciones sesgadas e inconsistentes.[2]​ Sin embargo, si un instrumento está disponible, aún puede obtenerse estimaciones consistentes. Un instrumento es una variable que no pertenecen en sí en la ecuación explicativa y se correlaciona con las variables explicativas endógenas, condicionada a las otras variables. En los modelos lineales, hay dos requisitos principales para el uso de un IV:

  • El instrumento debe estar correlacionado con las variables explicativas endógenas, condicionada a las otras variables.
  • El instrumento no puede estar correlacionado con el término de error en la ecuación explicativa, es decir, el instrumento no puede sufrir el mismo problema que la variable original que pretende predecir.

Definiciones[editar]

Hay varias definiciones formales de lo que son las variables instrumentales, utilizando contrafácticos y criterios gráficos, están dadas por Judea Pearl (2000).[3]​ Las nociones de causalidad en la econometría, y su relación con variables instrumentales y otros métodos, son discutidos por James Heckman (2008).[4]

La teoría de las variables instrumentales se obtuvo por primera vez por Philip G. Wright en su libro de 1928 The Tariff on Animal and Vegetable Oils.[5]

Ejemplo[editar]

De un modo informal, al tratar de estimar el efecto causal de una variable x sobre y, un instrumento es una tercera variable z que afecta a la variable y a través de su efecto sobre x exclusivamente. Por ejemplo, considere el caso de un investigador que quiere estimar el efecto causal del tabaquismo sobre la salud en general (como Leigh y Schembri 2004[6]​). La correlación entre la salud y el fumar no implica que el fumar sea la causa de problemas de salud porque otras variables pueden ejercer influencia tanto sobre el estado de salud como sobre el hábito de fumar, o porque el estado de salud puede afectar el hábito de fumar así como el fumar cause problemas de salud, etcétera. En el mejor de los casos, es difícil y costoso adelantar experimentos controlados sobre el consumo del tabaco de la población y el investigador puede tratar de estimar el efecto causal del fumar sobre la salud a partir de datos observados, tomando series de tiempo sobre impuestos sobre productos del tabaco a manera de "instrumento" del hábito de fumar en el análisis causal. Si dichos impuestos y el estado de salud se encuentran correlacionados, entonces esta relación podría considerarse evidencia de que el hábito de fumar causa cambios en el estado de salud.

Estimación[editar]

Supongamos que los datos son generados por un proceso de la forma:

donde

  • i es el índice de observaciones,
  • la variable dependiente,
  • la variable independiente,
  • es un término de error inadvertido que representa todas las causas de diferente a , y
  • es un parámetro escalar observado.

El parámetro es el efecto causal de de un cambio de una unidad en , Manteniendo todas las demás causas de constante. El objetivo es econométrico para estimar . Para simplificar asumir los sorteos de están correlacionados y que provienen de distribuciones con la misma varianza, es decir, que los errores son serialmente correlacionados y homocedásticos. Supongamos también que se propone un modelo de regresión de nominalmente la misma forma. Dada una muestra aleatoria de T observaciones de este proceso, el de mínimos cuadrados ordinarios estimador es

donde x, y y denotar vectores columna de longitud T. Cuando x y están correlacionadas , bajo ciertas condiciones de regularidad el segundo término tiene un valor esperado condicional en x igual a cero y converge a cero en el límite, por lo que el estimador es imparcial y consistente. Cuando x y las otras, las variables causales no medidos se derrumbaron en el \ Varepsilon término se correlacionan, sin embargo, el estimador MCO es generalmente sesgado e inconsistente de β. En este caso, es válido utilizar las estimaciones para predecir los valores de los valores dados a de x, pero la estimación no se recupera el efecto causal de x de y.

Una variable instrumental z es uno que está correlacionada con la variable independiente, pero no con el error de plazo. Utilizando el método de los momentos , tener expectativas condicionales en z para encontrar

El segundo término del lado derecho es cero por supuesto. Resuelve para \ Beta y escribir la expresión resultante en términos de momentos de la muestra,

Cuando z y no están correlacionadas, el término final, bajo ciertas condiciones de regularidad, se aproxima a cero en el límite, proporcionando un estimador consistente. Dicho de otra manera, el efecto causal de x en y se puede estimar consistentemente a partir de estos datos a pesar de que x no se asigna al azar a través de métodos experimentales.

El enfoque se generaliza a un modelo con múltiples variables explicativas. Supongamos que X es el T × K matriz de variables explicativas que resultan de observaciones T en K variables. Sea Z un T × K matriz de instrumentos. Entonces se puede demostrar que el estimador

es consistente bajo una generalización multivariante de las afecciones expuestas anteriormente. Si hay más instrumentos que los que hay covariables en la ecuación de interés para que Z es un T × M matriz con M> K, el método generalizado de momentos puede ser utilizado y el estimador IV resultante es:

donde . La segunda expresión colapsa a la primera cuando el número de instrumentos es igual al número de covariables en la ecuación de interés.

Interpretación como mínimos cuadrados de dos etapas[editar]

Un método computacional que puede ser utilizado para computar las estimaciones VI es el de los mínimos cuadrados en dos etapas o mínimos cuadrados dietápicos (2SLS o TSL). En la primera etapa, cada variable explicativa que es una covariable endógena en la ecuación de interés es retrocedido en todas las variables exógenas en el modelo, incluyendo ambas covariables exógenos en la ecuación de interés y los instrumentos excluidos. Se obtienen los valores predichos de estas regresiones.

Etapa 1: Regrese cada columna de X en Z, ()

y guarde los valores pronosticados:

En la segunda etapa, la regresión de interés se calcula como de costumbre, excepto que en esta etapa cada uno de covarianza endógena se sustituye con los valores predichos a partir de la primera etapa.

Etapa 2: Regrese Y en los valores predichos a partir de la primera etapa:

El estimador resultante de es numéricamente idéntica a la expresión se muestra arriba. Una pequeña corrección se debe hacer a los residuos de suma de cuadrados en el modelo ajustado de la segunda etapa con el fin de que la matriz de covarianza de los se calcula correctamente.

Identificación[editar]

En la regresión de variable instrumental, si tenemos múltiples regresores endógenos y múltiples instrumentos los coeficientes de los regresores endógenos se dice que son:

Exactamente identificado si m = k.
Sobreidentificado si m > k.
Subidentificado si m < k.

Se dice que los parámetros están subidentificados (o no identificados) si hay un menor número de instrumentos que de covariables o, de modo equivalente, si hay menos instrumentos excluidos que covariables endógenas en la ecuación de interés.

Análisis no paramétrico[editar]

Cuando la forma de las ecuaciones estructurales es desconocida, una variable instrumental todavía se puede definir a través de las ecuaciones:

donde y son dos funciones arbitrarias y Z es independiente de los U . A diferencia de los modelos lineales, sin embargo, las mediciones de Z, X y Y no permitir la identificación del efecto causal promedio de X en Y , Denotado ACE

Balke y Pearl [1997] derivados límites estrictos a ACE y demostraron que estos pueden proporcionar información valiosa sobre el signo y el tamaño de la ECA.[7]

En el análisis lineal, no existe una prueba para falsificar el supuesto de la Z es relativo instrumentales para la pareja (X, Y). Este no es el caso cuando X es discreta. Pearl (2000)[3]​ ha demostrado que, a pesar de F y g , La siguiente restricción, llamada "La desigualdad Instrumental" debe tener siempre Z satisface las dos ecuaciones anteriores:

En la interpretación de las estimaciones IV[editar]

La exposición anterior supone que el efecto causal de interés no varía a través de observaciones, es decir, que \ Beta es una constante. En general, los distintos temas responden de manera diferente a los cambios en el "tratamiento" x. Cuando se reconoce esta posibilidad, el efecto medio en la población de un cambio en x de y puede ser diferente del efecto en una subpoblación determinada. Por ejemplo, el efecto medio de un programa de capacitación para el trabajo puede diferir sustancialmente entre el grupo de personas que realmente reciben la formación y el grupo que opte por no recibir capacitación. Por estas razones, los métodos IV invocan suposiciones implícitas en la respuesta de comportamiento, o más generalmente suposiciones sobre la correlación entre la respuesta al tratamiento y la propensión a recibir el tratamiento.[8]

El estimador estándar IV puede recuperar los efectos locales de tratamiento promedio (LATE) en lugar de los efectos de tratamiento promedio (ATE).[1]​ Imbens y Angrist (1994) demuestran que la estimación lineal IV puede interpretarse en condiciones débiles como la media ponderada de la media local, los efectos del tratamiento, donde los pesos dependen de la elasticidad de la regresor endógeno a los cambios en las variables instrumentales. Aproximadamente, eso significa que el efecto de una variable sólo se revela para las subpoblaciones afectadas por los cambios observados en los instrumentos, y que las subpoblaciones que responden más a los cambios en los instrumentos tendrán los efectos más grandes en la magnitud de la estimación IV.

Por ejemplo, si un investigador utiliza la presencia de una universidad de concesión de tierras como instrumento para la educación universitaria en una regresión de los ingresos, se identifica el efecto de la universidad en las ganancias en la subpoblación que obtener un título universitario si una universidad está presente pero que, sin no obtener un título de una universidad si no está presente. Este enfoque empírico no es así, sin más suposiciones, dice el investigador nada sobre el efecto de la universidad entre personas que ya sea siempre o nunca conseguir un título universitario, independientemente de si existe o no una universidad local.

Potenciales Problemas[editar]

Las estimaciones de las variables instrumentales son generalmente inconsistentes si los instrumentos están correlacionados con el término de error en la ecuación de interés. Como Bound, Jaeger y Baker (1995) señalan, otro problema es causado por la selección de instrumentos "débiles", instrumentos que son predictores pobres del predictor de la pregunta endógena en la ecuación de la primera etapa. [16] En este caso, la predicción del predictor de la pregunta por el instrumento será pobre y los valores previstos tendrán muy poca variación. En consecuencia, es poco probable que tengan mucho éxito en la predicción del resultado final cuando se utilizan para reemplazar a la pregunta predictor en la segunda etapa de la ecuación.

En el contexto del ejemplo sobre el tabaquismo y la salud analizado anteriormente, los impuestos sobre el tabaco son instrumentos débiles para fumar si el tabaquismo no responde en gran medida a los cambios en los impuestos. Si los impuestos más altos no inducen a la gente a dejar de fumar (o no empezar a fumar), entonces la variación en las tasas impositivas no nos dice nada sobre el efecto del tabaquismo en la salud. Si los impuestos afectan la salud a través de canales que no sean a través de su efecto sobre el tabaquismo, entonces los instrumentos son inválidos y el enfoque de variables instrumentales puede producir resultados engañosos. Por ejemplo, los lugares y las épocas con poblaciones relativamente saludables pueden aplicar altos impuestos sobre el tabaco y exhibir una mejor salud incluso manteniendo constantes las tasas de tabaquismo, por lo que observaríamos una correlación entre los impuestos a la salud y el tabaco, incluso si el fumar no tiene efecto en salud. En este caso, estaríamos equivocados a inferir un efecto causal del tabaquismo sobre la salud de la correlación observada entre los impuestos al tabaco y la salud.

Referencias[editar]

  1. a b Imbens, G.; Angrist, J. (1994). «Identification and estimation of local average treatment effects». Econometrica 62 (2): 467-476. JSTOR 2951620. 
  2. Bullock, J. G., Green, D. P., and Ha, S. E. (2010). Yes, But What’s the Mechanism? (Don’t Expect an Easy Answer). Journal of Personality and Social Psychology, 98, 550-58.
  3. a b Pearl, J. Causality: Models, Reasoning, and Inference, Cambridge University Press, 2000.
  4. Heckman, J. (2008) Econometric causality. National Bureau of Economic Research working paper #13934.
  5. Stock, James H.; Trebbi, Francesco (2003). «Retrospectives: Who Invented Instrumental Variable Regression?». Journal of Economic Perspectives (AEA) 17 (3): 177-194. doi:10.1257/089533003769204416. Consultado el 7 de julio de 2011. 
  6. Leigh, J.P. and M. Schembri (2004) Instrumental variables technique: cigarette price provided better estimate of effects of smoking on SF-12, Journal of Clinical Epidemiology 57(3), 284–293.
  7. Balke, A.; Pearl, J. (1997). «Bounds on treatment effects from studies with imperfect compliance». Journal of the American Statistical Association 92 (439): 1172-1176. doi:10.1080/01621459.1997.10474074. 
  8. Heckman, J. (1997). «Instrumental variables: A study of implicit behavioral assumptions used in making program evaluations». Journal of Human Resources 32 (3): 441-462. JSTOR 146178. 

Enlaces externos[editar]