Análisis de la covarianza

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

El análisis de la covarianza o ANCOVA, acrónimo del inglés analysis of covariance, es un modelo lineal general con una variable cuantitativa y uno o más factores. El ANCOVA es una fusión del ANOVA y de la regresión lineal múltiple. Es un procedimiento estadístico que permite eliminar la heterogeneidad causada en la variable de interés (variable dependiente) por la influencia de una o más variables cuantitativas (covariables). Básicamente, el fundamento del ANCOVA es un ANOVA al que a la variable dependiente se le ha eliminado el efecto predicho por una o más covariables por regresión lineal múltiple. La inclusión de covariables puede aumentar la potencia estadística porque a menudo reduce la variabilidad.

Ecuaciones[editar]

ANCOVA de un factor[editar]

El análisis de un factor es apropiado cuando se dispone de tres o más grupos; k grupos. El factor (variable categórica) tiene k niveles. En los diseños equilibrados, cada grupo tiene el mismo número de datos (individuos), los cuales idealmente han sido asignados al azar a cada grupo a partir de una muestra original preferiblemente homogénea.

Calculando la suma de las desviaciones al cuadrado para la variable independiente X y la variable dependiente Y[editar]

La suma de las desviaciones al cuadrado (SS): SST_y, SSTr_y, y SSE_y debe ser calculada usando las siguientes ecuaciones para la variable dependiente, Y. La SS para la covariable también debe ser calculada; los dos valores necesarios son SST_x y SSE_x.

La suma de cuadrados total define una la variabilidad del total de individuos n_T:

SST_y=\sum_{i=1}^n\sum_{j=1}^kY_{ij}^2-\frac{\left(\sum_{i=1}^n\sum_{j=1}^kY_{ij}\right)^2}{n_T}

La suma de cuadrados para los tratamientos define la variabilidad entre las poblaciones o grupos. n_k representa el número de grupos.

SSTr_y=\sum_{i=1}^n\left(\frac{\sum_{j=1}^kY_{ij}^2}{n_k}\right)-\frac{\left(\sum_{i=1}^n\sum_{j=1}^kY_{ij}\right)^2}{n_T}

La suma de cuadrados del error define la variabilidad residual dentro de cada grupo. n_n representa el número de individuos en un grupo dado:

SSE_y=\sum_{i=1}^n\sum_{j=1}^kY_{ij}^2-\sum_{i=1}^n\left(\frac{\sum_{j=1}^kY_{ij}^2}{n_k}\right)

La suma de cuadrados total es igual a la suma de cuadrados de los tratamientos y la suma de cuadrados del error (propiedad de aditividad de las sumas de cuadrados y de los grados de libertad, característica del ANOVA).

SST_y=SSTr_y+SSE_y.\,

Cálculo de la covarianza de X e Y[editar]

La suma de las covarianzas define la covarianza de X e Y.

SCT=\sum_{i=1}^n\sum_{j=1}^kX_{ij}Y_{ij}-\frac{\left(\sum_{i=1}^n\sum_{j=1}^kX_{ij}\right)\left(\sum_{i=1}^n\sum_{j=1}^kY_{ij}\right)}{n_T}
SCE=\sum_{j=1}^k\left(\sum_{i=1}^nX_{ij}Y_{ij}-\frac{\sum_{i=1}^n(X_{ij}Y_{ij})}{n_n}\right)

Ajuste de SSTy[editar]

La correlación entre X e Y es r_T^2.

r_T^2=\frac{SCT^2}{SST_xSST_y}
r_n^2=\frac{SCE^2}{SSE_xSSE_y}

La proporción de covarianza es sustraída de la dependiente; valores de SS_y:

SST_{yadj}=SST_y-r_T^2\,
SSE_{yadj}=SSE_y-r_n^2\,
SSTr_{yadj}=SST_{yadj}-SSE_{yadj}\,

Ajuste de las medias de cada grupo k[editar]

La media de cada grupo es ajustada del siguiente modo:

M_{y_iadj}=M_{y_i}-\frac{SCE_y}{SCE_x}(M_{x_i}-M_{x_T})

Análisis usando los valores de la suma de cuadrados[editar]

Finalmente obtenemos la varianza de los tratamientos libre de la covarianza, donde df_{Tr} (grados de libertad) es igual a N_T-k-1. Puede apreciarse que cada covariable elimina un grado de libertad.

MSTr=\frac{SSTr}{df_{Tr}}
MSE=\frac{SSE}{df_E}

El estadístico F es

F_{df_E,df_\mathrm{Tr}}=\frac{\mathrm{MSTr}}{\mathrm{MSE}}.

Enlaces externos (en inglés)[editar]