Valores faltantes

De Wikipedia, la enciclopedia libre

En estadística, los datos faltantes o valores faltantes ocurren cuando no se almacena un valor de datos para la variable en una observación. Los valores faltantes son una ocurrencia común y pueden tener un efecto significativo en las conclusiones que se pueden extraer de los datos.

Los valores faltantes pueden ocurrir debido a la falta de respuesta: no se proporciona información para uno o más elementos o para una unidad completa («sujeto»). Es más probable que algunos elementos generen una falta de respuesta que otros: por ejemplo, elementos sobre temas privados como los ingresos. El desgaste es un tipo de falta que puede ocurrir en estudios longitudinales, por ejemplo, estudiar el desarrollo donde una medición se repite después de un cierto período de tiempo. La pérdida ocurre cuando los participantes abandonan antes de que finalice la prueba y faltan una o más mediciones.

Los datos faltan a menudo en la investigación en economía, sociología y ciencias políticas porque los gobiernos o las entidades privadas deciden no proporcionar estadísticas críticas, o no lo hacen,[1]​ o porque la información no está disponible. A veces, los valores faltantes son causados por el investigador; por ejemplo, cuando la recopilación de datos no se realiza correctamente o se cometen errores en la entrada de datos.[2]

Estas formas de ausencia son de tipos diferentes, con impactos distintos en la validez de las conclusiones de la investigación: falta completamente al azar, falta al azar y falta no al azar. Los valores faltantes se pueden manejar de manera similar a los datos censurados .

Tipos[editar]

Comprender las razones por las que faltan datos es importante para manejar correctamente los datos restantes. Si faltan valores completamente al azar, es probable que la muestra de datos siga siendo representativa de la población. Pero si los valores faltan sistemáticamente, puede que el análisis esté sesgado. Por ejemplo, en un estudio de la relación entre coeficiente intelectual (CI) e ingresos, si los participantes con un CI superior a la media tienden a omitir la pregunta «¿Cuál es su salario?», los análisis que no tienen en cuenta esta falta aleatoria (patrón MAR ( ver más abajo)) puede fallar falsamente al encontrar una asociación positiva entre el coeficiente intelectual y el salario. Debido a estos problemas, los especialistas en metodología aconsejan rutinariamente a los investigadores que diseñen estudios para minimizar la ocurrencia de valores faltantes.[2]​ Se pueden utilizar modelos gráficos para describir en detalle el mecanismo de valores faltantes.[3][4]

En el gráfico se muestran las distribuciones de probabilidad de las estimaciones de la intensidad esperada de depresión en la población. El número de casos es de 60. Sea la verdadera población una distribución normal estandarizada y la probabilidad de no respuesta una función logística de la intensidad de la depresión. La conclusión es: cuantos más datos faltan (MNAR), más sesgadas son las estimaciones. Subestimamos la intensidad de la depresión en la población.

Falta completamente al azar[editar]

Los valores en un conjunto de datos faltan totalmente al azar (MCAR) si los eventos que conducen a la falta de cualquier elemento de datos en particular son independientes tanto de las variables observables como de los parámetros de interés no observables, y ocurren totalmente al azar.[5]​ Cuando los datos son MCAR, el análisis realizado sobre ellos es imparcial; sin embargo, los datos rara vez son MCAR.

En el caso de MCAR, la falta de datos no está relacionada con alguna variable de estudio: por lo tanto, los participantes con datos completamente observados son en efecto una muestra aleatoria de todos los participantes asignados a una intervención particular. Con MCAR, se supone que se conserva la asignación aleatoria de tratamientos, pero en la práctica suele ser una suposición poco realista.[6]

Falta al azar[editar]

La falta al azar (MAR) ocurre cuando la falta no es aleatoria, pero donde la falta puede explicarse completamente por variables donde hay información completa.[7]​ Dado que MAR es una suposición que no es posible verificar estadísticamente, debemos confiar en su razonabilidad sustantiva.[8]​ Un ejemplo es que los hombres son menos propensos a completar una encuesta sobre depresión, pero esto no tiene nada que ver con su nivel de depresión, después de tener en cuenta la masculinidad. Dependiendo del método de análisis, estos datos aún pueden inducir un sesgo de parámetros en los análisis debido al vacío contingente de las celdas (los hombres, la depresión muy alta pueden tener cero entradas). Sin embargo, si el parámetro se estima con verosimilitud máxima de información completa, MAR proporcionará estimaciones asintóticamente imparciales.[cita requerida]

Falta no al azar[editar]

La falta no aleatoria (MNAR) (también conocida como falta de respuesta no identificable) son datos que no son ni MAR ni MCAR (es decir, el valor de la variable faltante está relacionado con la razón por la que falta). Para ampliar el ejemplo anterior, esto ocurriría si los hombres no rellenaran una encuesta sobre depresión debido a su nivel de depresión.

Samuelson y Spirer (1992) discutieron sobre cómo los datos faltantes y/o distorsionados sobre demografía, cumplimiento de la ley y salud podrían ser indicadores de patrones de violaciones de los derechos humanos. Dieron varios ejemplos bastante bien documentados.[9]

Técnicas para tratar con valores faltantes[editar]

Los valores faltantes reducen la representatividad de la muestra y, por lo tanto, pueden distorsionar las inferencias sobre la población. En términos generales, existen tres enfoques principales para manejar los valores faltantes: (1) Imputación: donde introducen datos en lugar de los valores faltantes, (2) omisión: donde las muestras con datos no válidos se descartan de análisis posteriores y (3) análisis: mediante la aplicación directa de métodos no afectados por los valores perdidos. Una revisión sistemática que abordó la prevención y el manejo de valores faltantes para la investigación de resultados centrada en el paciente identificó 10 estándares necesarios para la prevención y el manejo de valores faltantes. Estos incluyen estándares para el diseño del estudio, la realización del estudio, el análisis y la presentación de informes.[10]

En alguna aplicación práctica, los experimentadores pueden controlar el nivel de pérdida y evitar valores faltantes antes de recopilar los datos. Por ejemplo, en los cuestionarios informáticos, a menudo no es posible omitir una pregunta. Una pregunta tiene que ser respondida, de lo contrario no se puede continuar con la siguiente. Por lo tanto, los valores faltantes debidos al participante se eliminan con este tipo de cuestionario, aunque es posible que el consejo de ética que supervisa la investigación no permita este método. En la investigación de encuestas, es común hacer muchos esfuerzos para contactar a cada individuo en la muestra, a menudo enviando cartas para tratar de persuadir a quines han decidido no participar para que cambien de opinión.[11]: 161–187 Sin embargo, tales técnicas pueden ayudar o perjudicar en términos de reducir los efectos inferenciales negativos de los datos faltantes, porque es probable que el tipo de personas que están dispuestas a ser persuadidas para participar después de negarse inicialmente o no estar en casa sean significativamente diferentes de los tipos de personas que aún se negarán o permanecerán inalcanzables después de un esfuerzo adicional.[11]: 188–198 

En situaciones en las que es probable que se produzcan valores faltantes, a menudo se recomienda al investigador que planifique el uso de métodos de análisis de datos que sean resistentes a la falta de datos o valores. Un análisis es sólido cuando estamos seguros de que las violaciones de leves a moderadas de los supuestos clave de la técnica producirán poco o ningún sesgo o distorsión en las conclusiones extraídas sobre la población.

imputación[editar]

Algunas técnicas de análisis de datos no son resistentes a la falta y requieren «completar» o imputar los valores faltantes. Rubin (1987) argumentó que repetir la imputación aunque sea unas pocas veces (5 o menos) mejora enormemente la calidad de la estimación.[2]​ Para muchos propósitos prácticos, 2 o 3 imputaciones capturan la mayor parte de la eficiencia relativa que podría capturarse con un número mayor de imputaciones. Sin embargo, un número demasiado pequeño de imputaciones puede conducir a una pérdida sustancial de poder estadístico y algunos académicos ahora recomiendan de 20 a 100 o más.[12]​ Cualquier análisis de datos de imputación múltiple debe repetirse para cada uno de los conjuntos de datos imputados y, en algunos casos, las estadísticas relevantes deben combinarse de una manera relativamente complicada.[2]​ La imputación múltiple no se realiza en disciplinas específicas, ya que existe falta de formación o conceptos erróneos sobre las mismas.[13]​ Se han utilizado métodos como la eliminación por lista para imputar datos, pero se ha descubierto que introducen un sesgo adicional.[14]​ Hay una guía para principiantes que proporciona instrucciones paso a paso sobre cómo imputar datos.[15]

El algoritmo de maximización de expectativas es un método con el que se estiman (imputan) los valores de las estadísticas que se calcularían si hubiese disponible un conjunto de datos completo, teniendo en cuenta el patrón de valores faltantes. En este método, los valores de los elementos de datos faltantes individuales generalmente no se imputan.

Interpolación[editar]

En el campo matemático del análisis numérico, la interpolación es un método para construir puntos nuevos de datos dentro del rango de un conjunto discreto de puntos de datos conocidos.

En la comparación de dos muestras pareadas con valores faltantes, una prueba estadística que utiliza todos los datos disponibles sin necesidad de imputación es la prueba t de muestras parcialmente superpuestas.[16]​ Esto es válido bajo normalidad y asumiendo MCAR

Eliminación parcial[editar]

Los métodos que involucran la reducción de los datos disponibles a un conjunto de datos que no tiene valores faltantes incluyen:

Métodos que tienen plenamente en cuenta toda la información disponible, sin la distorsión resultante de utilizar los valores imputados como si realmente se observaran:

También se pueden utilizar métodos de identificación parcial .[19]

Técnicas basadas en modelos[editar]

Las técnicas basadas en modelos, que a menudo utilizan gráficos, ofrecen herramientas adicionales para probar los tipos de valores faltantes (MCAR, MAR, MNAR) y para estimar parámetros en condiciones de valores faltantes. Por ejemplo, una prueba para refutar MAR/MCAR dice lo siguiente:

Para cualquiera de las tres variables X, Y y Z donde Z se observa completamente y X e Y se observan parcialmente, los datos deben satisfacer: .

En palabras, la porción observada de X debería ser independiente del estado de ausencia de Y, condicionado a cada valor de Z. El incumplimiento de esta condición indica que el problema pertenece a la categoría MNAR.[20]

(Observación: estas pruebas son necesarias para el MAR basado en variables, que es una variación ligera del MAR basado en eventos.[21][22]​ )

Cuando los valores caen en la categoría MNAR, hay técnicas disponibles para estimar de manera consistente los parámetros cuando ciertas condiciones se mantienen en el modelo.[3]​ Por ejemplo, si Y explica el motivo de la ausencia de X e Y tiene valores faltantes, la distribución de probabilidad conjunta de X y Y aún se puede estimar si la ausencia de Y es aleatoria. La estimación en este caso será:

dónde y denotan las porciones observadas de sus variables respectivas.

Estructuras de modelos diferentes pueden producir estimandos diferentes y procedimientos distintos de estimación siempre que sea posible una estimación consistente. El estimador anterior requiere estimar primero a partir de datos completos y multiplicándolos por estimado a partir de casos en los que se observa Y independientemente del estado de X . Además, para obtener una estimación consistente es crucial que el primer término sea Opuesto a .

En muchos casos, las técnicas basadas en modelos permiten que la estructura del modelo se someta a pruebas de refutación. Cualquier modelo que implique la independencia entre una variable X parcialmente observada y el indicador de ausencia de otra variable Y (es decir, ), condicionado a puede someterse a la siguiente prueba de refutación: .

Finalmente, los estimados que surgen de estas técnicas se derivan en forma cerrada y no requieren procedimientos iterativos como la maximización de expectativas que son susceptibles de locales óptimos.[23]

Cuando la probabilidad de que falte depende del tiempo aparece una clase especial de problemas. Por ejemplo, en las bases de datos de trauma, la probabilidad de perder datos sobre el resultado del trauma depende del día posterior al trauma. En estos casos se aplican varios modelos de cadenas de Markov no estacionarios.[24]

Véase también[editar]

Referencias[editar]

  1. Messner SF (1992). «Exploring the Consequences of Erratic Data Reporting for Cross-National Research on Homicide». Journal of Quantitative Criminology 8 (2): 155-173. doi:10.1007/bf01066742. 
  2. a b c d Hand, David J.; Adèr, Herman J.; Mellenbergh, Gideon J. (2008). Advising on Research Methods: A Consultant's Companion. Huizen, Netherlands: Johannes van Kessel. pp. 305-332. ISBN 978-90-79418-01-5. 
  3. a b Mohan, Karthika; Pearl, Judea; Tian, Jin (2013). «Graphical Models for Inference with Missing Data». Advances in Neural Information Processing Systems 26. pp. 1277-1285. 
  4. Karvanen, Juha (2015). «Study design in causal models». Scandinavian Journal of Statistics 42 (2): 361-377. arXiv:1211.2958. doi:10.1111/sjos.12110. 
  5. Polit DF Beck CT (2012). Nursing Research: Generating and Assessing Evidence for Nursing Practice, 9th ed. Philadelphia, USA: Wolters Klower Health, Lippincott Williams & Wilkins. 
  6. Deng (5 de octubre de 2012). «On Biostatistics and Clinical Trials». Archivado desde el original el 15 de marzo de 2016. Consultado el 13 de mayo de 2016. 
  7. «Home». Archivado desde el original el 10 de septiembre de 2015. Consultado el 1 de agosto de 2015. 
  8. Little, Roderick J. A.; Rubin, Donald B. (2002), Statistical Analysis with Missing Data (2nd edición), Wiley ..
  9. Samuelson, Douglas A.; Spirer, Herbert F. (31 de diciembre de 1992), «Chapter 3. Use of Incomplete and Distorted Data in Inference About Human Rights Violations», Human Rights and Statistics (University of Pennsylvania Press): 62-78, ISBN 9781512802863, doi:10.9783/9781512802863-006, consultado el 18 de agosto de 2022 .
  10. Li, Tianjing; Hutfless, Susan; Scharfstein, Daniel O.; Daniels, Michael J.; Hogan, Joseph W.; Little, Roderick J.A.; Roy, Jason A.; Law, Andrew H. et al. (2014). «Standards should be applied in the prevention and handling of missing data for patient-centered outcomes research: a systematic review and expert consensus». Journal of Clinical Epidemiology (en inglés) 67 (1): 15-32. PMC 4631258. PMID 24262770. doi:10.1016/j.jclinepi.2013.08.013. 
  11. a b Stoop, I.; Billiet, J.; Koch, A.; Fitzgerald, R. (2010). Reducing Survey Nonresponse: Lessons Learned from the European Social Survey. Oxford: Wiley-Blackwell. ISBN 978-0-470-51669-0. 
  12. Graham J.W.; Olchowski A.E.; Gilreath T.D. (2007). «How Many Imputations Are Really Needed? Some Practical Clarifications of Multiple Imputation Theory». Preventative Science 8 (3): 208-213. PMID 17549635. doi:10.1007/s11121-007-0070-9. 
  13. van Ginkel, Joost R.; Linting, Marielle; Rippe, Ralph C. A.; van der Voort, Anja (3 de mayo de 2020). «Rebutting Existing Misconceptions About Multiple Imputation as a Method for Handling Missing Data». Journal of Personality Assessment 102 (3): 297-308. ISSN 0022-3891. PMID 30657714. doi:10.1080/00223891.2018.1530680. 
  14. van Buuren, S. (2018). Flexible imputation of missing data (2nd edición). CRC Press. 
  15. Woods, Adrienne D.; Gerasimova, Daria; Van Dusen, Ben; Nissen, Jayson; Bainter, Sierra; Uzdavines, Alex; Davis‐Kean, Pamela E.; Halvorson, Max et al. (23 de febrero de 2023). «Best practices for addressing missing data through multiple imputation». Infant and Child Development (en inglés). ISSN 1522-7227. doi:10.1002/icd.2407. 
  16. Derrick, B; Russ, B; Toher, D; White, P (2017). «Test Statistics for the Comparison of Means for Two Samples That Include Both Paired and Independent Observations». Journal of Modern Applied Statistical Methods 16 (1): 137-157. doi:10.22237/jmasm/1493597280. 
  17. Chechik, Gal; Heitz, Geremy; Elidan, Gal; Abbeel, Pieter; Koller, Daphne (1 de junio de 2008). «Max-margin Classification of incomplete data». Neural Information Processing Systems: 233-240. 
  18. Chechik, Gal; Heitz, Geremy; Elidan, Gal; Abbeel, Pieter; Koller, Daphne (1 de junio de 2008). «Max-margin Classification of Data with Absent Features». The Journal of Machine Learning Research 9: 1-21. ISSN 1532-4435. 
  19. Tamer, Elie (2010). «Partial Identification in Econometrics». Annual Review of Economics 2 (1): 167-195. doi:10.1146/annurev.economics.050708.143401. 
  20. Mohan, Karthika; Pearl, Judea (2014). «On the testability of models with missing data». Proceedings of AISTAT-2014, Forthcoming. 
  21. Darwiche, Adnan (2009). Modeling and Reasoning with Bayesian Networks. Cambridge University Press. 
  22. Potthoff, R.F.; Tudor, G.E.; Pieper, K.S.; Hasselblad, V. (2006). «Can one assess whether missing data are missing at random in medical studies?». Statistical Methods in Medical Research 15 (3): 213-234. PMID 16768297. doi:10.1191/0962280206sm448oa. 
  23. Mohan, K.; Van den Broeck, G.; Choi, A.; Pearl, J. (2014). «An Efficient Method for Bayesian Network Parameter Learning from Incomplete Data». Presented at Causal Modeling and Machine Learning Workshop, ICML-2014. 
  24. Mirkes, E.M.; Coats, T.J.; Levesley, J.; Gorban, A.N. (2016). «Handling missing data in large healthcare dataset: A case study of unknown trauma outcomes». Computers in Biology and Medicine 75: 203-216. Bibcode:2016arXiv160400627M. PMID 27318570. arXiv:1604.00627. doi:10.1016/j.compbiomed.2016.06.004. Archivado desde el original el 5 de agosto de 2016. 

Enlaces externos[editar]

Fondo[editar]

Software[editar]