Distribución T² de Hotelling

Función de densidad de probabilidad.Parámetros:p - dimensión de las variables aleatorias.m - relacionado con el tamaño de la muestra.

En estadística la distribución T² (T-cuadrado) de Hotelling es importante porque se presenta como la distribución de un conjunto de estadísticas que son una generalización natural de las estadísticas subayacentes distribución t de Student. En particular, la distribución se presenta en estadísticas multivariadas en pruebas de diferencias entre las medias (multivariadas) de diferentes poblaciones, donde las pruebas para problemas univariados usarían la Prueba t. Es proporcional a la distribución F.

La distribución recibe su nombre de Harold Hotelling, quien la desarrollo^[1] como una generalización de la distribución t de Student.

Definición[editar]

Si el vector $d$ tiene distribución normal multivariada con media cero y matriz de covarianza unitaria $N({\boldsymbol {0}}_{p},{\boldsymbol {I}}_{p,p})$ y $M$ es una matriz de tamaño $p\times p$ con matriz unitaria escalada y $m$ los grados de libertad con distribución de Wishart $W({\boldsymbol {I}}_{p,p},m)$ entonces la forma cuadrática $X$ tiene distribución de Hotelling con parámetros $p$ y $m$ :

X=md^{T}M^{-1}d\sim T^{2}(p,m)

Si la variable aleatoria $X$ tiene distribución T-cuadrado de Hotelling con parámetros $p$ y $m$ , $X\sim T_{p,m}^{2}$ , entonces

{\frac {m-p+1}{pm}}X\sim F_{p,m-p+1}

donde $F_{p,m-p+1}$ es la distribución F con parámetros ${\ce {p}}$ y $m-p+1$ .

Estadística T-cuadrado de Hotelling[editar]

La estadística T-cuadrado de Hotelling es una generalización de la estadística t de Student que se usa en las pruebas de hipótesis multivariadas, y se define como sigue:^[1]

Sea ${\mathcal {N}}_{p}({\boldsymbol {\mu }},{\mathbf {\Sigma } })$ , que denota una distribución normal p-variada con vector de medias ${\boldsymbol {\mu }}$ y covarianza ${\mathbf {\Sigma } }$ . Sean

{\mathbf {x} }_{1},\dots ,{\mathbf {x} }_{n}\sim {\mathcal {N}}_{p}({\boldsymbol {\mu }},{\mathbf {\Sigma } })

$n$ variables aleatorias independientes, las cuales pueden representarse como un vector columna de orden $p\times 1$ de números reales. Defínase

{\overline {\mathbf {x} }}={\frac {\mathbf {x} _{1}+\cdots +\mathbf {x} _{n}}{n}}

como la media muestral. Puede demostrarse que

n({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})'{\mathbf {\Sigma } }^{-1}({\overline {\mathbf {x} }}-{\boldsymbol {\mathbf {\mu } }})\sim \chi _{p}^{2},

donde $\chi _{p}^{2}$ es una distribución ji-cuadrado con p grados de libertad. Para demostrar eso se usa el hecho que ${\overline {\mathbf {x} }}\sim {\mathcal {N}}_{p}({\boldsymbol {\mu }},{\mathbf {\Sigma } }/n)$ y entonces, al derivar la función característica de la variable aleatoria $\mathbf {y} =n({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})'{\mathbf {\Sigma } }^{-1}({\overline {\mathbf {x} }}-{\boldsymbol {\mathbf {\mu } }})$

{\begin{aligned}\phi _{\mathbf {y} }(\theta )&=\operatorname {E} e^{i\theta \mathbf {y} }\\&=\operatorname {E} e^{i\theta n({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})'{\mathbf {\Sigma } }^{-1}({\overline {\mathbf {x} }}-{\boldsymbol {\mathbf {\mu } }})}\\&=\int e^{i\theta n({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})'{\mathbf {\Sigma } }^{-1}({\overline {\mathbf {x} }}-{\boldsymbol {\mathbf {\mu } }})}(2\pi )^{-{\frac {p}{2}}}|{\boldsymbol {\Sigma }}/n|^{-{\frac {1}{2}}}\,e^{-{\frac {1}{2}}n({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})'{\boldsymbol {\Sigma }}^{-1}({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})}\,dx_{1}...dx_{p}\\&=\int (2\pi )^{-{\frac {p}{2}}}|{\boldsymbol {\Sigma }}/n|^{-{\frac {1}{2}}}\,e^{-{\frac {1}{2}}n({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})'({\boldsymbol {\Sigma }}^{-1}-2i\theta {\boldsymbol {\Sigma }}^{-1})({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})}\,dx_{1}...dx_{p}\\&=|({\boldsymbol {\Sigma }}^{-1}-2i\theta {\boldsymbol {\Sigma }}^{-1})^{-1}/n|^{\frac {1}{2}}|{\boldsymbol {\Sigma }}/n|^{-{\frac {1}{2}}}\int (2\pi )^{-{\frac {p}{2}}}|({\boldsymbol {\Sigma }}^{-1}-2i\theta {\boldsymbol {\Sigma }}^{-1})^{-1}/n|^{-{\frac {1}{2}}}\,e^{-{\frac {1}{2}}n({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})'({\boldsymbol {\Sigma }}^{-1}-2i\theta {\boldsymbol {\Sigma }}^{-1})({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})}\,dx_{1}...dx_{p}\\&=|(\mathbf {I} _{p}-2i\theta \mathbf {I} _{p})|^{-{\frac {1}{2}}}\\&=(1-2i\theta )^{-{\frac {p}{2}}}\end{aligned}}

Sin embargo, ${\mathbf {\Sigma } }$ es por lo general desconocida y se busca hacer una prueba de hipótesis sobre el vector de medias ${\boldsymbol {\mu }}$ .

Defínase

{\mathbf {W} }={\frac {1}{n-1}}\sum _{i=1}^{n}(\mathbf {x} _{i}-{\overline {\mathbf {x} }})(\mathbf {x} _{i}-{\overline {\mathbf {x} }})'

como la covarianza muestral. La traspuesta se ha denotado con un apóstrofo. Se demuestra que $\mathbf {W}$ es una matriz definida positiva y $(n-1)\mathbf {W}$ sigue una distribución Wishart p-variada con n−1 grados de libertad.^[2] La estadística T-cuadrado de Hotelling se define entonces como

t^{2}=n({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})'{\mathbf {W} }^{-1}({\overline {\mathbf {x} }}-{\boldsymbol {\mathbf {\mu } }})

porque se demuestra que ^{[cita requerida]}

t^{2}\sim T_{p,n-1}^{2}

es decir

{\frac {n-p}{p(n-1)}}t^{2}\sim F_{p,n-p},

donde $F_{p,n-p}$ es una distribución $F$ con parámetros $p$ y $n-p$ . Para calcular un p-valor, multiplique la estadística t² y la constante anterior y use la distribución $F$ .