Criterio de Cramér-von Mises

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

En estadística el criterio de Cramér-von Mises se emplea para juzgar la bondad de una función de distribución acumulada F^* comparada con una función de distribución empírica F_n, o para comparar dos distribuciones empíricas. También se utiliza como parte de otros algoritmos, tal como la estimación de la distancia mínima. Se define como:

\omega^2 = \int_{-\infty}^{\infty} [F_n(x)-F^*(x)]^2\,\mathrm{d}F^*(x)

Aplicandolo a una única muestra, F^* es la distribución teórica y F_n es la empírica. Alternativamente las dos distribuciones pueden ser estimadas empíricamente; esto se conoce como un caso de dos muestras.

El criterio lleva los apellidos de Harald Cramér y Richard Edler von Mises, quienes fueron los primeros en exponerlo entre los años 1928-1930. La generalización de las dos muestras es obra de Theodore Wilbur Anderson.[1]

El criterio es una alternativa al test de Kolmogorov-Smirnov.

Test de Cramér-von Mises (una muestra)[editar]

Sean x_1,x_2,\cdots,x_n los valores observados, en orden creciente. Entonces el estadístico es[1] :1153[2]

T = n \omega^2 = \frac{1}{12n} + \sum_{i=1}^n \left[ \frac{2i-1}{2n}-F(x_i) \right]^2.

Si este valor es mayor que el valor tabulado, se puede rechazar la hipótesis de que los datos provienen de la distribución F

Test de Watson[editar]

Una versión modificada del criterio es el test de Watson[3] , el cual usa el estadístico U2, donde[2]

U^2= T-n( \bar{F}-\tfrac{1}{2} )^2,

donde

\bar{F}=\frac{1}{n} \sum F(x_i).

Test de Cramér–von Mises test (dos muestras)[editar]

Sean x_1,x_2,\cdots,x_N y y_1,y_2,\cdots,y_M los valores observados en la primera y segunda muestra respectivamente, en orden creciente. Sean r_1,r_2,\cdots,r_N los rangos de x en la muestra combinada, y sean s_1,s_2,\cdots,s_M los rangos de y en la muestra combinada. Anderson[1] :1149 muestra que

T = N \omega^2 = \frac{U}{N M (N+M)}-\frac{4 M N - 1}{6(M+N)}

donde U se define como

U = N \sum_{i=1}^N (r_i-i)^2 + M \sum_{j=1}^M (s_j-j)^2

Si el valor de T es mayor que los valores tabulados,[1] :1154–1159 se puede rechazar la hipótesis de que las dos muestras provienen de de la misma distribución. Esto implica que no hay duplicados en x, y, y en las secuencias r. Por tanto x_i es unica, y su rango es i en x_1,...x_N. Si hay duplicados, y x_i en x_j son valores idénticos, donde se puede utilizar el enfoque del medio rango[4] método: asignar a cada duplicado un rango de (i+j)/2. En las ecuaciones precedentes, en las expresiones (r_i-i)^2 y (s_j-j)^2, los duplicados pueden alterar las cuatro variables r_i, i, s_j, y j.

Referencias[editar]

  1. a b c d Anderson (1962)
  2. a b Pearson & Hartley (1972) p 118
  3. Watson (1961)
  4. Ruymgaart (1980)

Bibliografía[editar]

» ignorado (ayuda)

  • Pearson, E.S., Hartley, H.O. (1972) Biometrika Tables for Statisticians, Volume 2, CUP. ISBN 0-521-06937-8 (page 118 and Table 54)
  • Ruymgaart, F. H., (1980) "A unified approach to the asymptotic distribution theory of certain midrank statistics". In: Statistique non Parametrique Asymptotique, 1±18, J. P. Raoult (Ed.), Lecture Notes on Mathematics, No. 821, Springer, Berlin.
  • Watson, G.S. (1961) "Goodness-Of-Fit Tests on a Circle", Biometrika, 48 (1/2), 109-114

Lecturas[editar]

Enlaces externos[editar]