Tasa de descubrimiento falso

En estadística, la tasa de descubrimiento falso ( FDR ) es un método para conceptualizar la tasa de errores de tipo I en las pruebas de hipótesis nulas cuando se realizan comparaciones múltiples. Los procedimientos de control de FDR están diseñados para controlar el FDR, que es la proporción esperada de "descubrimientos" ( hipótesis nulas rechazadas) que son falsas (rechazos incorrectos de la hipótesis nula).^[1] De manera equivalente, el FDR es la relación esperada entre el número de clasificaciones positivas falsas (descubrimientos falsos) y el número total de clasificaciones positivas (rechazos de la hipótesis nula). El número total de rechazos de la hipótesis nula incluye tanto el número de falsos positivos (FP) como el de verdaderos positivos (VP). En pocas palabras, FDR = FP / (FP + VP). Los procedimientos de control de FDR proporcionan un control menos estricto de los errores de tipo I en comparación con los procedimientos de control de la tasa de error familiar (FWER) (como la corrección de Bonferroni ), que controlan la probabilidad de al menos un error de tipo I. Por lo tanto, los procedimientos de control de FDR tienen mayor poder, a costa de un mayor número de errores de Tipo I.^[2]

Historia[editar]

Se cree que el actual uso generalizado del FDR tiene su origen y motivación en el desarrollo de tecnologías que permitieron la recopilación y el análisis de una gran cantidad de variables distintas medidas en varios individuos (por ejemplo, el nivel de expresión de cada uno de 10,000 genes diferentes en 100 personas diferentes).^[3]

Definiciones[editar]

Con base en las siguientes definiciones, podemos definir $Q$ como la proporción de descubrimientos falsos entre los descubrimientos (rechazos de la hipótesis nula):

Q={\frac {V}{R}}={\frac {V}{V+S}}

.

dónde $V$ es el número de descubrimientos falsos y $S$ es el número de descubrimientos verdaderos.

La tasa de descubrimiento falso ( FDR ) es simplemente:^[1]

\mathrm {FDR} =Q_{e}=\mathrm {E} \!\left[Q\right],

dónde $\mathrm {E} \!\left[Q\right]$ es el valor esperado de $Q$ . El objetivo es mantener FDR por debajo de un umbral determinado q . Para evitar la división por cero, $Q$ se define como 0 cuando $R=0$ . Formalmente, $\mathrm {FDR} =\mathrm {E} \!\left[V/R|R>0\right]\cdot \mathrm {P} \!\left(R>0\right)$ .^[1]

Propiedades[editar]

Adaptable y escalable[editar]

Usar un procedimiento de multiplicidad que controla el criterio FDR es adaptable y escalable. Esto significa que controlar el FDR puede ser muy permisivo (si los datos lo justifican) o conservador (estando cerca del control de FWER para un problema de datos dispersos), todo depende de la cantidad de hipótesis probadas y del nivel de significancia.^[3]

El criterio FDR se adapta de forma que un mismo número de falsos descubrimientos (V) tendrá implicaciones diferentes, dependiendo del número total de descubrimientos (R). Esto contrasta con el criterio de la tasa de error sabia de la familia. Por ejemplo, si se inspeccionan 100 hipótesis (digamos, 100 mutaciones genéticas o SNP para asociación con algún fenotipo en alguna población):

Si hacemos 4 descubrimientos (R), de manera que 2 de ellos sean falsos descubrimientos (V) esto suele ser muy costoso. Mientras que,
Si hacemos 50 descubrimientos (R), donde 2 de ellos son falsos descubrimientos (V) esto muchas veces no es muy costoso.

El criterio FDR es escalable en el sentido de que la misma proporción de descubrimientos falsos sobre el número total de descubrimientos (Q), sigue siendo sensible para un número diferente de descubrimientos totales (R). Por ejemplo:

Si hacemos 100 descubrimientos (R), de manera que 5 de ellos son falsos descubrimientos ( $q=5\%$ ), esto puede no ser muy costoso.
De manera similar, si hacemos 1000 descubrimientos (R), siendo 50 de ellos descubrimientos falsos (igual que antes, $q=5\%$ ), esto todavía puede no ser tan costoso.