Estadísticos de orden

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

En estadística, el estadístico de orden kº es igual al valor k-th más pequeño de una muestra estadística.[1] Junto con las estadísticas de rango, los estadísticos de orden son una de las herramientas más fundamentales de la estadística no paramétrica y de inferencia .

Hay casos especiales importantes de los estadísticos de orden son el mínimo y el máximo valor de una muestra, y (con algunas calificaciones discutidos a continuación) las muestras mediana y otros cuantiles de muestra .

Cuando se utiliza la teoría de probabilidad para analizar estadísticos de orden de muestras aleatorias a partir de una distribución continua, la función de distribución acumulativa se usa para reducir el análisis para el caso de estadísticas de orden de la distribución uniforme.

Notación y ejemplos[editar]

Por ejemplo, supongamos que cuatro números se observan o registrados, lo que resulta en una muestra de tamaño 4. si los valores de la muestra son

6, 9, 3, 8,

que por lo general se denominan

x_1=6,\ \ x_2=9,\ \ x_3=3,\ \ x_4=8,\,

donde el subíndice i in x_i simplemente indica el orden en el que se registraron las observaciones y se supone por lo general no son significativos. Un caso en el que el orden es significativo es cuando las observaciones son parte de una serie de tiempo.

Las estadísticas de orden se indican

x_{(1)}=3,\ \ x_{(2)}=6,\ \ x_{(3)}=8,\ \ x_{(4)}=9,\,

donde el subíndice (i) entre paréntesis indica el orden º del estadística de la muestra i.

La primera estadístico de orden (o estadístico de orden más pequeña) es siempre el mínimo de la muestra, es decir,

X_{(1)}=\min\{\,X_1,\ldots,X_n\,\}

Cuando, tras una convención común, utilizamos letras mayúsculas para referirse a variables aleatorias, y las letras minúsculas (como arriba) para referirse a los valores reales observados.

Del mismo modo, para una muestra de tamaño n, la th estadístico de orden n (o más grande estadístico de orden) es el máximo, es decir:

X_{(n)}=\max\{\,X_1,\ldots,X_n\,\}.

El rango de la muestra es la diferencia entre el máximo y el mínimo. Está claro que es una función de las estadísticas de orden:

{\rm Range}\{\,X_1,\ldots,X_n\,\} = X_{(n)}-X_{(1)}.

Un dato importante similar en el análisis exploratorio de los datos que se relaciona simplemente con las estadísticas de orden es la muestra de rango intercuartílico.

La mediana de la muestra puede ser o puede no ser una estadística fin, ya que no hay un único valor medio sólo cuando el número n de observaciones es impar . Más precisamente, si n = 2m+1 para algunos m, entonces la mediana de la muestra es X_{(m+1)} y así es una estadística orden. Por otro lado, cuando n es incluso, n = 2m y hay dos valores medios, X_{(m)} and X_{(m+1)}, y la mediana de la muestra es una función de los dos (por lo general el promedio) y por lo tanto no una estadística orden. Observaciones similares se aplican a todos los cuantiles de la muestra.

Análisis probabilístico[editar]

Teniendo en cuenta todas las variables aleatorias X1, X2..., Xn, las estadísticas de orden X(1), X(2), ..., X(n) también son variables aleatorias, definidas por la clasificación de los valores ( Realizaciones ) de X1, ..., Xn creciente.

Cuando las variables aleatorias X1, X2..., Xn forman una muestra de que son independientes e idénticamente distribuidos. Este es el caso tratado a continuación. En general, las variables aleatorias X1, ..., Xn pueden surgir mediante un muestreo de más de una población. Entonces ellos son independientes , pero no necesariamente idénticamente distribuidas, y su distribución de probabilidad conjunta está dada por el teorema Bapat-Beg.

A partir de ahora, asumiremos que las variables aleatorias que se consideran son continuos y, cuando sea conveniente, también vamos a asumir que tienen una función de densidad de probabilidad (es decir, que son absolutamente continua). Las peculiaridades del análisis de las distribuciones de masas para la asignación de puntos (en particular, las distribuciones discretas) se discuten al final.

Distribuciones de probabilidad de estadísticas de orden[editar]

En esta sección mostramos que las estadísticas de orden de la distribución uniforme en el intervalo unidad tienen distribuciones marginales pertenecientes a la distribución Beta familia. También damos un método sencillo para derivar la distribución conjunta de cualquier número de estadísticas de orden y, finalmente, traducir estos resultados para distribuciones continuas arbitrarias utilizando el CDF .

Suponemos que toda esta sección X_{1}, X_{2}, \ldots, X_{n} es una muestra aleatoria extraída de una distribución continua con cdf F_X. Denotando U_i=F_X(X_i) se obtiene la muestra aleatoria correspondiente U_1,\ldots,U_n de la norma de distribución uniforme. Tenga en cuenta que las estadísticas de orden también satisfacen U_{(i)}=F_X(X_{(i)}).

Estadísticas de orden de la muestra de una distribución uniforme[editar]

La probabilidad de la estadística para U_{(k)} caer en el intervalo [u,\ u+du] is equal to[2]

{n!\over (k-1)!(n-k)!}u^{k-1}(1-u)^{n-k}\,du+O(du^2),

es decir, el k-ésimo orden estadística de la distribución uniforme es una Beta variable aleatoria.[2] [3]

U_{(k)} \sim B(k,n+1-k).

La prueba de estos estados es el siguiente. Para U_{(k)} a ser de entre u y u + du, es necesario que exactamente k - 1 elementos de la muestra son más pequeños que U, y que al menos uno es entre U y U + D U. La probabilidad de que más de uno es en este último intervalo es ya O (du ^ 2) , Así que tenemos que calcular la probabilidad de que exactamente k - 1, 1 y n - k observaciones caen en los intervalos (0,u), (u,u+du) y (u+du,1) respectivamente. Esto es igual a (consulte la distribución multinomial para más detalles)

{n!\over (k-1)!(n-k)!}u^{k-1}\cdot du\cdot(1-u-du)^{n-k}

y el resultado sigue.

La media de esta distribución es k / (n + 1).

La distribución conjunta de las estadísticas de orden de la distribución uniforme[editar]

Del mismo modo, para i <j, la función de densidad de probabilidad conjunta de las dos estadísticas de orden de U(i) < U(j) puede ser demostrado ser

f_{U_{(i)},U_{(j)}}(u,v)\,du\,dv= n!{u^{i-1}\over (i-1)!}{(v-u)^{j-i-1}\over(j-i-1)!}{(1-v)^{n-j}\over (n-j)!}\,du\,dv

que es (hasta términos de orden superior O(du\,dv)) La probabilidad de que i − 1, 1, j − 1 − i, 1 and n − j elementos de la muestra j caigo en los intervalos (0,u), (u,u+du), (u+du,v), (v,v+dv), (v+dv,1), respectivamente

Una de las razones en una forma totalmente análoga para derivar las distribuciones de conjuntos de orden superior. Quizás sorprendentemente, la densidad conjunta de las estadísticas de orden n resulta ser constante:

f_{U_{(1)},U_{(2)},\ldots,U_{(n)}}(u_{1},u_{2},\ldots,u_{n})\,du_1\cdots du_n = n! \, du_1\cdots du_n.

Una manera de entender esto es que la muestra no ordenada tiene densidad constante igual a 1, y que hay n! diferentes permutaciones de la muestra correspondiente a la misma secuencia de estadísticas de orden. Esto está relacionado con el hecho de que 1 / n! es el volumen de la región 0<u_1<\cdots<u_n<1.

Estadísticas de orden de la muestra de una distribución Erlang[editar]

La transformada de Laplace de estadísticas de orden de la muestra a partir de una distribución de Erlang a través de un método de recuento de ruta. [4]

Referencias[editar]

  1. David, H. A.; Nagaraja, H. N. (2003). Order Statistics. Wiley Series in Probability and Statistics. doi:10.1002/0471722162. ISBN 9780471722168. edit
  2. a b Gentle, James E. (2009), Computational Statistics, Springer, p. 63, ISBN 9780387981444, http://books.google.com/books?id=mQ5KAAAAQBAJ&pg=PA63 .
  3. Jones, M. C. (2009), «Kumaraswamy’s distribution: A beta-type distribution with some tractability advantages», Statistical Methodology 6 (1): 70–81, doi:10.1016/j.stamet.2008.04.001, «As is well known, the beta distribution is the distribution of the m’th order statistic from a random sample of size n from the uniform distribution (on (0,1)).» 
  4. Hlynka, M.; Brill, P. H.; Horn, W. (2010). "A method for obtaining Laplace transforms of order statistics of Erlang random variables". Statistics & Probability Letters 80: 9. doi:10.1016/j.spl.2009.09.006.