Distribución T² de Hotelling

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda


En estadística la distribución T² (T-cuadrado) de Hotelling es importante porque se presenta como la distribución de un conjunto de estadísticas que son una generalización natural de las estadísticas subayacentes distribución t de Student. En particular, la distribución se presenta en estadísticas multivariadas en pruebas de diferencias entre las medias (multivariadas) de diferentes poblaciones, donde las pruebas para problemas univariados usarían la Prueba t. Es proporcional a la distribución F.

La distribución recibe su nombre de Harold Hotelling, quien la desarrollo[1] como una generalización de la distribución t de Student.

La distribución[editar]

Si la notación T^2_{p,m} es usada para denotar una variable aleatoria distribución T-cuadrado de Hotelling con parámetros p ym, entonces, si una variable aleatoria X distribución T-cuadrado de Hotelling,


X \sim T^2_{p,m}

entonces[1]


\frac{m-p+1}{pm} X\sim F_{p,m-p+1}

donde F_{p,m-p+1} es una distribución F con parámetros p y m−p+1.

Estadística T-cuadrado de Hotelling[editar]

La estadística T-cuadrado de Hotelling es una generalización de la estadística t de Student que se usa en las pruebas de hipótesis multivariadas, y se define como sigue:[1]

Sea \mathcal{N}_p(\boldsymbol{\mu},{\mathbf \Sigma}), que denota una distribución normal p-variada con vector de medias \boldsymbol{\mu} y covarianza {\mathbf \Sigma}. Sean

{\mathbf x}_1,\dots,{\mathbf x}_n\sim \mathcal{N}_p(\boldsymbol{\mu},{\mathbf \Sigma})

n variables aletorias independientes, las cuales pueden representarse como un vector columna de orden p\times1 de números reales. Defínase

\overline{\mathbf x}=\frac{\mathbf{x}_1+\cdots+\mathbf{x}_n}{n}

como la media muestral. Puede demostrarse que


n(\overline{\mathbf x}-\boldsymbol{\mu})'{\mathbf \Sigma}^{-1}(\overline{\mathbf x}-\boldsymbol{\mathbf\mu})\sim\chi^2_p ,

donde \chi^2_p es una distribución ji-cuadrado con p grados de liberatd. Para demostrar eso se usa el hecho que \overline{\mathbf x}\sim \mathcal{N}_p(\boldsymbol{\mu},{\mathbf \Sigma}/n) y entonces, al derivar la función característica de la variable aletoria \mathbf y=n(\overline{\mathbf x}-\boldsymbol{\mu})'{\mathbf \Sigma}^{-1}(\overline{\mathbf x}-\boldsymbol{\mathbf\mu}). Esto se hizo bajo,

\phi_{\mathbf y}(\theta)=\operatorname{E} e^{i \theta \mathbf y},
=\operatorname{E} e^{i \theta n(\overline{\mathbf x}-\boldsymbol{\mu})'{\mathbf \Sigma}^{-1}(\overline{\mathbf x}-\boldsymbol{\mathbf\mu})}
= \int e^{i \theta n(\overline{\mathbf x}-\boldsymbol{\mu})'{\mathbf \Sigma}^{-1}(\overline{\mathbf x}-\boldsymbol{\mathbf\mu})} (2\pi)^{-\frac{p}{2}}|\boldsymbol\Sigma/n|^{-\frac{1}{2}}\, e^{ -\frac{1}{2}n(\overline{\mathbf x}-\boldsymbol\mu)'\boldsymbol\Sigma^{-1}(\overline{\mathbf x}-\boldsymbol\mu) }\,dx_{1}...dx_{p}
= \int (2\pi)^{-\frac{p}{2}}|\boldsymbol\Sigma/n|^{-\frac{1}{2}}\, e^{ -\frac{1}{2}n(\overline{\mathbf x}-\boldsymbol\mu)'(\boldsymbol\Sigma^{-1}-2 i \theta \boldsymbol\Sigma^{-1})(\overline{\mathbf x}-\boldsymbol\mu) }\,dx_{1}...dx_{p},
= |(\boldsymbol\Sigma^{-1}-2 i \theta \boldsymbol\Sigma^{-1})^{-1}/n|^{\frac{1}{2}} |\boldsymbol\Sigma/n|^{-\frac{1}{2}} \int (2\pi)^{-\frac{p}{2}} |(\boldsymbol\Sigma^{-1}-2 i \theta \boldsymbol\Sigma^{-1})^{-1}/n|^{-\frac{1}{2}} \, e^{ -\frac{1}{2}n(\overline{\mathbf x}-\boldsymbol\mu)'(\boldsymbol\Sigma^{-1}-2 i \theta \boldsymbol\Sigma^{-1})(\overline{\mathbf x}-\boldsymbol\mu) }\,dx_{1}...dx_{p},
= |(\mathbf I_p-2 i \theta \mathbf I_p)|^{-\frac{1}{2}},
= (1-2 i \theta)^{-\frac{p}{2}}.~~\blacksquare

Sin embargo, {\mathbf \Sigma} es por lo general desconocida y se busca hacer una prueba de hipótesis sobre el vector de medias \boldsymbol{\mu}.

Defínase

{\mathbf W}=\frac{1}{n-1}\sum_{i=1}^n (\mathbf{x}_i-\overline{\mathbf x})(\mathbf{x}_i-\overline{\mathbf x})'

como la covarianza muestral. La traspuesta se ha denotado con un apóstrofo. Se demuestra que \mathbf W es una matriz definida positiva y (n-1)\mathbf W sigue una distribución Wishart p-variada con n−1 grados de libertad.[2] La estadística T-cudrado de Hotelling se define entonces como


t^2=n(\overline{\mathbf x}-\boldsymbol{\mu})'{\mathbf W}^{-1}(\overline{\mathbf x}-\boldsymbol{\mathbf\mu})

porque se demuestra que [cita requerida]

t^2 \sim T^2_{p,n-1}

es decir

\frac{n-p}{p(n-1)}t^2 \sim F_{p,n-p} ,

donde F_{p,n-p} es una distribución F con parámetros p y n−p. Para calcular un p-valor, multiplique la estadística t2 y la constante anterior y use la distribución F.

Estadística T-cuadrado de Hotelling para dos muestras[editar]

Si {\mathbf x}_1,\dots,{\mathbf x}_{n_x}\sim N_p(\boldsymbol{\mu},{\mathbf V}) y {\mathbf y}_1,\dots,{\mathbf y}_{n_y}\sim N_p(\boldsymbol{\mu},{\mathbf V}), con the samples independently drawn from two independent multivariate normal distributions con la misma media y covarianza, y definimos

\overline{\mathbf x}=\frac{1}{n_x}\sum_{i=1}^{n_x} \mathbf{x}_i \qquad \overline{\mathbf y}=\frac{1}{n_y}\sum_{i=1}^{n_y} \mathbf{y}_i

como las medias muestrales, y

{\mathbf W}= \frac{\sum_{i=1}^{n_x}(\mathbf{x}_i-\overline{\mathbf x})(\mathbf{x}_i-\overline{\mathbf x})'
+\sum_{i=1}^{n_y}(\mathbf{y}_i-\overline{\mathbf y})(\mathbf{y}_i-\overline{\mathbf y})'}{n_x+n_y-2}

como el estinador de la matriz de covarianza pooled insesgado the unbiased pooled covariance matrix estimate, then Hotelling's two-sample T-squared statistic is

t^2 = \frac{n_x n_y}{n_x+n_y}(\overline{\mathbf x}-\overline{\mathbf y})'{\mathbf W}^{-1}(\overline{\mathbf x}-\overline{\mathbf y})
\sim T^2(p, n_x+n_y-2)

and it can be related to the F-distribution by[2]

\frac{n_x+n_y-p-1}{(n_x+n_y-2)p}t^2 \sim F(p,n_x+n_y-1-p).

The non-null distribution of this statistic is the noncentral F-distribution (the ratio of a non-central Chi-squared random variable and an independent central Chi-squared random variable)

\frac{n_x+n_y-p-1}{(n_x+n_y-2)p}t^2 \sim F(p,n_x+n_y-1-p;\delta),

with

\delta = \frac{n_x n_y}{n_x+n_y}\boldsymbol{\nu}'\mathbf{V}^{-1}\boldsymbol{\nu},

where \boldsymbol{\nu} is the difference vector between the population means.

Véase también[editar]

Referencias[editar]

  1. a b c Hotelling, H. (1931). «The generalization of Student's ratio». Annals of Mathematical Statistics 2 (3):  pp. 360–378. doi:10.1214/aoms/1177732979. 
  2. a b K.V. Mardia, J.T. Kent, and J.M. Bibby (1979) Multivariate Analysis, Academic Press.

Enlaces externos[editar]

Plantilla:ProbDistributions Plantilla:Common univariate probability distributions