Prueba de hipótesis sugeridas por los datos

En estadística, las hipótesis sugeridas por un conjunto de datos dado, cuando se prueban con el mismo conjunto de datos que las sugirió, es probable que sean aceptadas incluso cuando no son ciertas. Esto se debe a que estaría involucrado el razonamiento circular (doble inmersión): algo parece cierto en el conjunto de datos limitado; por lo tanto, planteamos la hipótesis de que es cierto en general; por lo tanto (erróneamente) lo probamos en el mismo conjunto de datos limitado, lo que parece confirmar que es cierto. Generar hipótesis basadas en datos ya observados, en ausencia de probarlos con datos nuevos, se conoce como teorización post hoc (del latín post hoc, "después de esto").

El procedimiento correcto es probar cualquier hipótesis en un conjunto de datos que no se utilizó para generar la hipótesis.

Ejemplo de aceptación falaz de una hipótesis[editar]

Supongamos que cincuenta investigadores diferentes realizan ensayos clínicos para evaluar si la vitamina X es eficaz en el tratamiento del cáncer. La gran mayoría de ellos no encuentran diferencias significativas entre las mediciones realizadas en pacientes que tomaron vitamina X y aquellos que tomaron un placebo. Sin embargo, debido al ruido estadístico, un estudio encuentra una correlación significativa entre tomar vitamina X y curarse del cáncer.

Teniendo en cuenta los 50 estudios en su conjunto, la única conclusión que podría hacerse con gran certeza es que no hay evidencia de que la vitamina X tenga algún efecto en el tratamiento del cáncer. Sin embargo, alguien que intente lograr una mayor publicidad para el único estudio atípico podría intentar crear una hipótesis sugerida por los datos, encontrando algún aspecto exclusivo de ese estudio y afirmando que este aspecto es la clave de sus diferentes resultados. Supongamos, por ejemplo, que este estudio fue el único realizado en Dinamarca. Se podría afirmar que este conjunto de 50 estudios muestra que la vitamina X es más eficaz en Dinamarca que en otros lugares. Sin embargo, aunque los datos no contradicen esta hipótesis, tampoco la respaldan firmemente. Solo uno o más estudios adicionales podrían reforzar esta hipótesis adicional.

El problema general[editar]

Probar una hipótesis sugerida por los datos puede resultar muy fácilmente en falsos positivos (errores tipo I). Si uno mira lo suficiente y en suficientes lugares diferentes, eventualmente se pueden encontrar datos para apoyar cualquier hipótesis. Sin embargo, estos datos positivos no constituyen por sí mismos evidencia de que la hipótesis sea correcta. Los datos negativos de la prueba que se descartaron son igual de importantes, porque dan una idea de cuán comunes se comparan los resultados positivos con el azar. Ejecutar un experimento, ver un patrón en los datos, proponer una hipótesis a partir de ese patrón, luego usar los mismos datos experimentales como evidencia de la nueva hipótesis es extremadamente sospechoso, porque los datos de todos los demás experimentos, completados o potenciales, esencialmente se han "arrojado" "eligiendo mirar solo los experimentos que sugirieron la nueva hipótesis en primer lugar.

Un gran conjunto de pruebas, como se describió anteriormente, aumenta enormemente la probabilidad de error de tipo I, ya que se descartan todos menos los datos más favorables a la hipótesis. Esto es un riesgo, no solo en las pruebas de hipótesis, sino en todas las inferencias estadísticas, ya que a menudo es problemático describir con precisión el proceso que se ha seguido al buscar y descartar datos. En otras palabras, uno quiere mantener todos los datos (independientemente de si tienden a apoyar o refutar la hipótesis) de "buenas pruebas", pero a veces es difícil descubrir qué es una "buena prueba". Es un problema particular en el modelado estadístico, donde muchos modelos diferentes son rechazados por prueba y error antes de publicar un resultado (ver también sobreajuste, sesgo de publicación).

El error es particularmente frecuente en la minería de datos y el aprendizaje automático. También ocurre comúnmente en publicaciones académicas donde solo se aceptan informes de resultados positivos, en lugar de negativos, lo que da como resultado el efecto conocido como sesgo de publicación.

Procedimientos correctos[editar]

Todas las estrategias para la prueba de sonido de las hipótesis sugeridas por los datos implican incluir una gama más amplia de pruebas en un intento de validar o refutar la nueva hipótesis. Estos incluyen:

Recolectando muestras de confirmación
Validación cruzada
Métodos de compensación para comparaciones múltiples
Estudios de simulación que incluyen una representación adecuada de las pruebas múltiples realmente involucradas

La prueba simultánea de Henry Scheffé de todos los contrastes en múltiples problemas de comparación es la más remedio bien conocido en el caso del análisis de varianza. Es un método diseñado para probar hipótesis sugeridas por los datos mientras se evita la falacia descrita anteriormente.^[1]

Véase también[editar]

Notas y referencias[editar]

↑ Henry Scheffé, "A Method for Judging All Contrasts in the Analysis of Variance", Biometrika, 40, pages 87–104 (1953). doi 10.1093/biomet/40.1-2.87

Datos: Q17147271

[1] Henry Scheffé, "A Method for Judging All Contrasts in the Analysis of Variance", Biometrika, 40, pages 87–104 (1953). doi 10.1093/biomet/40.1-2.87

[1]