Relación espuria

De Wikipedia, la enciclopedia libre
Ir a la navegación Ir a la búsqueda

En estadística, una relación espuria (o, a veces, correlación espuria) es una relación matemática en la cual dos acontecimientos no tienen conexión lógica, aunque se puede implicar que la tienen debido a un tercer factor no considerado aún (llamado "factor de confusión" o "variable escondida"). La relación espuria da la impresión de la existencia de un vínculo apreciable entre dos grupos que es inválido cuando se examina objetivamente.

Ejemplos[editar]

Un caso bien conocido de relación espuria puede encontrarse en la literatura de series de tiempo, donde una regresión espuria es una regresión que proporciona pruebas estadísticas engañosas de una relación lineal entre variables independientes no estacionarias. De hecho, la no estacionariedad puede deberse a la presencia de una raíz unitaria en ambas variables [1][2]​ En particular, es probable que dos variables económicas nominales cualesquiera estén correlacionadas entre sí, aun cuando ninguna de ellas tenga un efecto causal sobre la otra, ya que cada una de ellas equivale a una variable real multiplicada por el nivel de precios, y la presencia común del nivel de precios en las dos series de datos les confiere una correlación.

Un ejemplo de una relación espuria puede ser ilustrado examinando las ventas de helados de una ciudad. Estas son más altas cuando la tasa de sofocamientos es mayor. Sostener que la venta de helados causa los sofocamientos sería implicar una relación espuria entre las dos. En realidad, una ola de calor puede haber causado ambas. La ola de calor es un ejemplo de variable escondida.

Otro ejemplo comúnmente observado es una serie de estadísticas holandesas que muestran una correlación positiva entre el número de cigüeñas que anidan en una serie de manantiales y el número de bebés humanos que nacen en ese momento. Por supuesto que no había una conexión causal; se correlacionaron entre sí sólo porque se correlacionaron con el clima nueve meses antes de las observaciones.[3]​ ].Sin embargo, Höfer y otros (2004) demostraron que la correlación era más fuerte que las variaciones del tiempo, como pudo demostrar en Alemania tras la reunificación que, si bien el número de partos clínicos no estaba relacionado con el aumento de la población de cigüeñas, los partos fuera del hospital se correlacionaban con la población de cigüeñas[4]

Prueba de hipótesis[editar]

A menudo se prueba una hipótesis nula de no correlación entre dos variables, y se elige de antemano rechazar la hipótesis si la correlación calculada a partir de una muestra de datos hubiera ocurrido en menos del (digamos) 5% de las muestras de datos si la hipótesis nula fuera cierta. Mientras que una hipótesis nula verdadera será aceptada el 95% de las veces, el otro 5% de las veces que tenga una nula verdadera de ninguna correlación será rechazada erróneamente, causando la aceptación de una correlación que es espuria (un evento conocido como error Tipo I). En este caso, la correlación espuria en la muestra fue el resultado de la selección aleatoria de una muestra que no reflejaba las verdaderas propiedades de la población subyacente.

Estadística[editar]

El término se usa comúnmente en estadística y particularmente en técnicas de investigación experimental. La investigación experimental intenta comprender y predecir las relaciones causales (X → Y). Una correlación no-causal puede crearse de manera espuria por un antecedente que causa ambas (W → X & Y). Las variables que intervienen (X → W → Y), si no son detectadas, pueden hacer parecer que una causalidad indirecta es directa. Por esto, las correlaciones identificadas experimentalmente no representan relaciones causales a menos que las relaciones espurias sean descartadas.

En la práctica, se deben cumplir tres condiciones para poder concluir que X causa Y, directa o indirectamente:

  • X debe preceder a Y.
  • Si Y no ocurre entonces X no ocurre.
  • Y debe ocurrir cada vez que X ocurra.

Las relaciones espurias a menudo pueden ser identificadas considerando que cualquiera de estas condiciones ha sido violada.

La condición final puede relajarse en el caso de la causalidad indirecta. Por ejemplo, considérese un duelo de pistolas. Dos hombres se enfrentan y disparan uno al otro. Si un hombre muere como resultado del disparo del otro hombre, podremos concluir correctamente que el otro hombre causó la muerte del primero. Sin embargo, si un médico salva la vida del hombre herido (violando así la tercera premisa), esto no socava la causalidad, sólo la causalidad "directa". El daño biológico (W) provocado por el disparo (X) causa la muerte (Y), pero no el disparo en sí, permitiendo la intervención médica.

Véase también[editar]

Referencias[editar]

  1. Yule, G. Udny (1926-1). «Why do we Sometimes get Nonsense-Correlations between Time-Series?--A Study in Sampling and the Nature of Time-Series». Journal of the Royal Statistical Society 89 (1): 1. doi:10.2307/2341482. Consultado el 11 de abril de 2019. 
  2. Granger, C. W. J. (Clive William John), 1934-2009.; Swanson, Norman R. (Norman Rasmus), 1964-; Watson, Mark W. (2001). Essays in econometrics : collected papers of Clive W.J. Granger. Cambridge University Press. ISBN 0511068891. OCLC 62887014. Consultado el 11 de abril de 2019. 
  3. Sapsford, Roger.; Jupp, Victor. (2006). Data collection and analysis (2nd ed edición). SAGE Publications in association with the Open University. ISBN 9781848605039. OCLC 297537627. Consultado el 11 de abril de 2019. 
  4. Hofer, Thomas; Przyrembel, Hildegard; Verleger, Silvia (2004-1). «New evidence for the Theory of the Stork». Paediatric and Perinatal Epidemiology (en inglés) 18 (1): 88-92. ISSN 0269-5022. doi:10.1111/j.1365-3016.2003.00534.x. Consultado el 11 de abril de 2019.