Paradoja de Simpson

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda
Paradoja de Simpson para datos continuos: una tendencia positiva aparece para dos grupos separados (azul y rojo) y una tendencia negativa (negro, punteado) cuando los datos se combinan.
Archivo:Public Domain Simpson's Paradox.gif
Haciendo clic en este gif se accede a una imagen animada que explica la paradoja de Simpson. Aunque el porcentaje de estudiantes varones que obtienen una beca para matemáticas es mayor que el porcentaje de mujeres que la obtienen, y aunque también el porcentaje de varones que obtienen la beca en física es mayor que el porcentaje de mujeres que la obtienen, el porcentaje total de varones que alcanzan una beca (en matemáticas o física) es menor que el porcentaje total de mujeres que la alcanzaron.

En probabilidad y estadística, la paradoja de Simpson o (efecto Yule-Simpson) es una paradoja en la cual una tendencia que aparece en varios grupos de datos desaparece cuando estos grupos se combinan y en su lugar aparece la tendencia contraria para los datos agregados. Esta situación se presenta con frecuencia en las ciencias sociales y en la estadística médica,[1] y es causa de confusión cuando a la frecuencia de los datos se le asigna sin fundamento una interpretación causal.[2] La paradoja desaparece cuando se analizan las relaciones causales presentes.

Aunque relativamente desconocida para la mayoría de las personas, la paradoja de Simpson es bien conocida para los estadísticos y se describe en muchos libros introductorios de estadística.[3] [4] Muchos estadísticos creen que se debería informar al público sobre resultados contrarios a la intuición como la paradoja de Simpson.[5] [6]

El fenómeno fue descrito por vez primera por Edward H. Simpson en un artículo técnico de 1951,[7] pero ya había sido descrito previamente por Karl Pearson, et al., en 1899,[8] y por Udny Yule en 1903[9] El nombre paradoja de Simpson fue usado por vez primera por Colin R. Blyth en 1972.[10]

Dado que Edward Simpson no descubrió realmente esta paradoja estadística (siendo un caso de la ley de eponimia de Stigler), algunos escritores prefieren hacer uso de los términos impersonales paradoja de la reversión y paradoja de la amalgamación, o en ocasiones el efecto Yule-Simpson.[11]

Ejemplos[editar]

Tratamiento de cálculos del riñón[editar]

Este es un ejemplo real tomado de un estudio médico.[12] que compara la proporción de éxito de dos tratamientos para los cálculos de riñón[13]

La siguiente tabla muestra los porcentajes de éxito y la cantidad de tratamientos que involucran cálculos grandes y pequeños. Aquí se denota por Tratamiento A a los procedimientos abiertos y por Tratamiento B a la nefrolitotomía percutánea:

Tratamiento A Tratamiento B
Cálculos pequeños Grupo 1
93% (81/87)
Grupo 2
87% (234/270)
Cálculos grandes Grupo 3
73% (192/263)
Grupo 4
69% (55/80)
Ambos 78% (273/350) 83% (289/350)

La conclusión paradójica es que el tratamiento A es más efectivo cuando se usa tanto en cálculos pequeños como en cálculos grandes, aunque el tratamiento B es más efectivo cuando se consideran ambos tamaños al mismo tiempo. En este caso, la variable "escondida" (o factor de confusión) del tamaño del cálculo no se conocía que fuera importante de antemano antes que se incluyeran sus efectos.

El tratamiento que se considera mejor se determina mediante una desigualdad entre dos proporciones (éxitos/total). La reversión de la desigualdad entre las proporciones crea la paradoja de Simpson, la cual sucede cuando los siguientes dos efectos se dan de forma simultánea.

  1. Los tamaños de ambos grupos, combinados cuando se ignora la variable oculta, son muy distintos. Los doctores tienen a dar a los casos severos (cálculos grandes) el mejor tratamiento (A) y a los casos más leves el tratamiento B. Por tanto, los totales quedan dominados por los grupos 3 y 2 y no por los grupos 1 y 4 que son mucho más pequeños.
  2. La variable escondida tiene un mayor efecto en las proporciones, puesto que en el porcentaje de éxito influye en mayor medida la severidad del caso antes que la elección del tratamiento. Por tanto, el grupo de pacientes con cálculos grandes usando el tratamiento A (grupo 3) tiene un resultado inferior al grupo con cálculos menores aún cuando en este último grupo se usara el tratamiento inferior B (grupo 2).

Tratamiento médico utilizando números extremos[editar]

Este ejemplo ficticio sigue en temática al del caso anterior, pero con números exageradamente dicotomizados con objeto de facilitar la comprensión del fenómeno.

La siguiente tabla muestra para este caso ficticio, igual que en el ejemplo real, los porcentajes de éxito y la cantidad de tratamientos que involucran al problema tipo "1" y al problema tipo "2":

Tratamiento A Tratamiento B
Problema tipo "1" Grupo 1
100% (1/1)
Grupo 2
98.9% (98/99)
Problema tipo "2" Grupo 3
1% (1/99)
Grupo 4
0% (0/1)
Ambos 2% (2/100) 98% (98/100)

En este caso está claro que el estudio no tiene validez por lo extremo de las muestras, pero la paradoja subyacente se conserva: el tratamiento A es mejor en ambos tipos de problema, pero el tratamiento B es mejor en el conjunto. Se hace asimismo más evidente dónde está el riesgo, al haberse explotado en el ejemplo: el hecho de que las muestras estadísticas sean tan dicotómicas entre tipos de problema, provoca la aparente contradicción.

Discriminación por género en Berkeley[editar]

Una de los ejemplos mejor conocidos de la paradoja de Simpson ocurrió cuando se presentó una demanda contra la Universidad de California, Berkeley por discriminación contra las mujeres que habían solicitado su ingreso al posgrado. Los resultados de las admisiones para el verano de 1973 mostraban que los hombres solicitantes tenían mayor posibilidad de ser elegidos que las mujeres y que la diferencia era tal que no era posible que fuera debida al azar.[3] [14]

Solicitudes Admisiones
Hombres 8442 44%
Mujeres 4321 35%

Sin embargo, al examinar los departamentos de forma individual, se encontró que en ningún departamento existía un sesgo contra las mujeres. De hecho, la mayoría de los departamentos había presentado un "pequeño pero estadísticamente significativo sesgo en favor de las mujeres"[14] Los datos de los seis mayores departamentos se listan debajo.

Departamento Hombres Mujeres
Solicitudes Admisiones Solicitudes Admisiones
A 825 62% 108 82%
B 560 63% 25 68%
C 325 37% 593 34%
D 417 33% 375 35%
E 191 28% 393 24%
F 272 6% 341 7%

El artículo de investigación de Bickel, et al.[14] concluyó que las mujeres solían presentar solicitudes en campos competitivos con bajo porcentaje de admisiones (tales como el departamento de lengua inglesa) mientras que los hombres solían presentar en departamentos con menor competencia y mayor porcentaje de admisiones (como ingeniería y química). Las condiciones bajo las cuales los datos de frecuencia de las admisiones de departamentos específicos constituyeron una defensa contra los cargos de discriminación se encuentran consignadas en el libro Causality (Causalidad) por Pearl.[2]

Referencias[editar]

  1. Clifford H. Wagner (February 1982). «Simpson's Paradox in Real Life». The American Statistician 36 (1):  pp. 46–48. doi:10.2307/2684093. 
  2. a b Judea Pearl. Causality: Models, Reasoning, and Inference, Cambridge University Press (2000, 2nd edition 2009). ISBN 0-521-77362-8.
  3. a b David Freedman, Robert Pisani and Roger Purves. Statistics (4th edition). W.W. Norton, 2007, p. 19. ISBN 978-0-393-92972-0.
  4. David S. Moore and D.S. George P. McCabe (February 2005). "Introduction to the Practice of Statistics" (5th edition). W.H. Freeman & Company. ISBN 0-7167-6282-X.
  5. Robert L. Wardrop (February 1995). "Simpson's Paradox and the Hot Hand in Basketball". The American Statistician, 49 (1): pp. 24–28.
  6. Alan Agresti (2002). "Categorical Data Analysis" (Second edition). John Wiley and Sons ISBN 0-471-36093-7
  7. Simpson, Edward H. (1951). «The Interpretation of Interaction in Contingency Tables». Journal of the Royal Statistical Society, Ser. B 13:  pp. 238–241. 
  8. Pearson, Karl; Lee, A.; Bramley-Moore, L. (1899). «Genetic (reproductive) selection: Inheritance of fertility in man». Philosophical Translations of the Royal Statistical Society, Ser. A 173:  pp. 534–539. 
  9. G. U. Yule (1903). «Notes on the Theory of Association of Attributes in Statistics». Biometrika 2 (2):  pp. 121–134. doi:10.1093/biomet/2.2.121. 
  10. Colin R. Blyth (June 1972). «On Simpson's Paradox and the Sure-Thing Principle». Journal of the American Statistical Association 67 (338):  pp. 364–366. doi:10.2307/2284382. 
  11. I. J. Good, Y. Mittal (June 1987). «The Amalgamation and Geometry of Two-by-Two Contingency Tables». The Annals of Statistics 15 (2):  pp. 694–711. doi:10.1214/aos/1176350369. ISSN 0090-5364. 
  12. C. R. Charig, D. R. Webb, S. R. Payne, J. E. Wickham (29 de marzo de 1986). «Comparison of treatment of renal calculi by open surgery, percutaneous nephrolithotomy, and extracorporeal shockwave lithotripsy». Br Med J (Clin Res Ed) 292 (6524):  pp. 879–882. doi:10.1136/bmj.292.6524.879. PMID 3083922. 
  13. Steven A. Julious and Mark A. Mullee (12/03/1994). «Confounding and Simpson's paradox». BMJ 309 (6967):  pp. 1480–1481. PMID 7804052. PMC 2541623. http://bmj.bmjjournals.com/cgi/content/full/309/6967/1480. 
  14. a b c P.J. Bickel, E.A. Hammel and J.W. O'Connell (1975). «Sex Bias in Graduate Admissions: Data From Berkeley». Science 187 (4175):  pp. 398–404. doi:10.1126/science.187.4175.398. PMID 17835295. http://www.sciencemag.org/cgi/content/abstract/187/4175/398. .

Enlaces externos[editar]