Distribución empírica

En estadística, una función de distribución empírica (comúnmente llamada función de distribución empírica, FDe) es la función de distribución asociada con una medida empírica de una muestra.^[1] Esta función de distribución acumulativa es una función escalonada que salta $1/n$ en cada uno de los $n$ valores dentro de la muestra empírica. Su valor en cualquier valor especificado de la variable medida es la fracción de observaciones de la variable medida que son menores o iguales al valor especificado.

La función de distribución empírica es una estimación de la función de distribución acumulativa que generó los puntos en la muestra. Esta función, converge con la probabilidad 1 a esa distribución subyacente a cuando $n\to \infty$ , de acuerdo con el teorema de Glivenko-Cantelli. Existen varios resultados para cuantificar la tasa de convergencia de la función de distribución empírica a la función de distribución acumulativa subyacente.

Definición[editar]

Sea $(X_{1},\dots ,X_{n})$ sean n variables aleatorias reales independientes e idénticamente distribuidas que se distribuyen según la función de distribución acumulativa $F(t)$ . En ese caso, la función de distribución empírica se define como^[2]^[3]

${\widehat {F}}_{n}(t)={\frac {{\mbox{número de elementos en la muestra}}\leq t}{n}}={\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{X_{i}\leq t},$

donde $\mathbf {1} _{A}$ es la función indicatriz de eventos $A$ . Para un $t$ fijo, la función indicatriz $\mathbf {1} _{X_{i}\leq t}$ es una variable aleatoria de Bernoulli con el parámetro $p=F(t)$ ; por lo tanto, $n{\widehat {F}}_{n}(t)$ es una variable aleatoria binomial con media $nF(t)$ y varianza $nF(t)(1-F(t))$ . Esto implica que ${\widehat {F}}_{n}(t)$ es un estimador no sesgado para $F(t)$ .

Sin embargo, en algunos libros de texto, se define alternativamente como:

${\widehat {F}}_{n}(t)={\frac {1}{n+1}}\sum _{i=1}^{n}\mathbf {1} _{X_{i}\leq t}$ ^[4]^[5]

Media[editar]

La media de la distribución empírica es un estimador no sesgado de la media de la distribución de la población.

$E_{n}(X)={\frac {1}{n}}\left(\sum _{i=1}^{n}{x_{i}}\right)$

que se denota más comúnmente ${\bar {x}}$

Varianza[editar]

La varianza de los tiempos de distribución empírica ${\tfrac {n}{n-1}}$ es un estimador imparcial de la varianza de la distribución poblacional, para cualquier distribución de X que tenga una varianza finita.

${\begin{aligned}\operatorname {Var} (X)&=\operatorname {E} \left[(X-\operatorname {E} [X])^{2}\right]\\[4pt]&=\operatorname {E} \left[(X-{\bar {x}})^{2}\right]\\[4pt]&={\frac {1}{n}}\left(\sum _{i=1}^{n}{(x_{i}-{\bar {x}})^{2}}\right)\end{aligned}}$

Error cuadrático medio[editar]

El error cuadrático medio para la distribución empírica es el siguiente.

${\begin{aligned}\operatorname {MSE} &={\frac {1}{n}}\sum _{i=1}^{n}(Y_{i}-{\hat {Y_{i}}})^{2}\\[4pt]&=\operatorname {Var} _{\hat {\theta }}({\hat {\theta }})+\operatorname {Bias} ({\hat {\theta }},\theta )^{2}\end{aligned}}$

Donde ${\hat {\theta }}$ es un estimador y $\theta$ un parámetro desconocido.

Cuantiles[editar]

Para cualquier número real $a$ la notación $\lceil {a}\rceil$ (léase "techo de a") denota el entero mínimo mayor o igual que $a$ . Para cualquier número real a, la notación $\lfloor {a}\rfloor$ (léase "piso de a") denota el entero mayor menor o igual que $a$ .

Si $nq$ no es un entero, entonces el $q$ -th quantile es único y es igual a $x_{(\lceil {nq}\rceil )}$

Si $nq$ es un entero, entonces el cuantil $q$ -th no es único y es cualquier número real $x$ tal que

$x_{({nq})}<x<x_{({nq+1})}$

Mediana empírica[editar]

Si $n$ es impar, entonces la mediana empírica es el número

${\tilde {x}}=x_{(\lceil {n/2}\rceil )}$

Si $n$ es par, entonces la mediana empírica es el número

${\tilde {x}}={\frac {x_{n/2}+x_{n/2+1}}{2}}$

Propiedades asintóticas[editar]

Dado que la relación $(n+1)/n$ se acerca a uno a medida que $n$ tiende a infinito, las propiedades asintóticas de las dos definiciones que se dan arriba son las mismas. Además, por la ley fuerte de los números grandes, el estimador $\scriptstyle {\widehat {F}}_{n}(t)$ converge a $F(t)$ cuando $n\to \infty$ casi con seguridad, para cada valor de $t$ :^[2]

${\widehat {F}}_{n}(t)\ \xrightarrow {\text{a.s.}} \ F(t);$

por lo tanto, el estimador $\scriptstyle {\widehat {F}}_{n}(t)$ es consistente. Esta expresión establece que hay convergencia puntual de la función de distribución empírica a la verdadera función de distribución acumulativa. Un resultado más lógicamente fuerte, llamado el teorema de Glivenko-Cantelli, establece que la convergencia de hecho ocurre uniformemente sobre $t$ :^[6]

$\|{\widehat {F}}_{n}-F\|_{\infty }\equiv \sup _{t\in \mathbb {R} }{\big |}{\widehat {F}}_{n}(t)-F(t){\big |}\ \xrightarrow {\text{a.s.}} \ 0.$

La norma del suprmeo en esta expresión se llama estadística de Kolmogorov–Smirnov para la bondad del ajuste entre la distribución empírica $\scriptstyle {\widehat {F}}_{n}(t)$ y la verdadera función de distribución acumulativa asumida $F$ . Puedne usarse otras normas como, por ejemplo, la norma L², lo que da lugar a la estadística de Cramér-von Mises.

La distribución asintótica se puede caracterizar de varias maneras diferentes. En primer lugar, el teorema del límite central establece que pointwise, $\scriptstyle {\widehat {F}}_{n}(t)$ tiene una distribución asintóticamente normal con el estándar ${\sqrt {n}}$ tasa de convergencia:^[2] {{ecuación|

${\sqrt {n}}{\big (}{\widehat {F}}_{n}(t)-F(t){\big )}\ \ \xrightarrow {d} \ \ {\mathcal {N}}{\Big (}0,F(t){\big (}1-F(t){\big )}{\Big )}.$ ||left}

Este resultado se extiende por el teorema de Donsker, que afirma que el proceso empírico $\scriptstyle {\sqrt {n}}({\widehat {F}}_{n}-F)$ , visto como una función indexada por $\scriptstyle t\in \mathbb {R}$ , converge en distribución en el espacio de Skorokhod $\scriptstyle D[-\infty ,+\infty ]$ al medio-cero proceso gaussiano $\scriptstyle G_{F}=B\circ F$ , donde $B$ es el puente Browniano estándar.^[6] La estructura de covarianza de este proceso gaussiano es

$\operatorname {E} [\,G_{F}(t_{1})G_{F}(t_{2})\,]=F(t_{1}\wedge t_{2})-F(t_{1})F(t_{2})$

La tasa uniforme de convergencia en el teorema de Donsker se puede cuantificar por el resultado conocido como incrustación húngara:^[7]

$\limsup _{n\to \infty }{\frac {\sqrt {n}}{\ln ^{2}n}}{\big \|}{\sqrt {n}}({\widehat {F}}_{n}-F)-G_{F,n}{\big \|}_{\infty }<\infty ,\quad {\text{a.s.}}$

Alternativamente, la tasa de convergencia de $\scriptstyle {\sqrt {n}}({\widehat {F}}_{n}-F)$ también se puede cuantificar en términos del comportamiento asintótico de la suposición de esta expresión. El número de resultados existen en este lugar, por ejemplo, la desigualdad de Dvoretzky–Kiefer–Wolfowitz proporciona probabilidades limitadas en la cola de $\scriptstyle {\sqrt {n}}\|{\widehat {F}}_{n}-F\|_{\infty }$ :^[7]

$\Pr \!{\Big (}{\sqrt {n}}\|{\widehat {F}}_{n}-F\|_{\infty }>z{\Big )}\leq 2e^{-2z^{2}}$

De hecho, Kolmogorov demostró que si la función de distribución acumulativa $F$ es continua, entonces la expresión $\scriptstyle {\sqrt {n}}\|{\widehat {F}}_{n}-F\|_{\infty }$ converge en distribución a $\scriptstyle \|B\|_{\infty }$ , que tiene la distribución de Kolmogorov que no depende de la forma de $F$ .

Otro resultado, que se desprende de la ley del logaritmo iterado, es que^[7]

$\limsup _{n\to \infty }{\frac {{\sqrt {n}}\|{\widehat {F}}_{n}-F\|_{\infty }}{\sqrt {2\ln \ln n}}}\leq {\frac {1}{2}},\quad {\text{a.s.}}$

y

$\liminf _{n\to \infty }{\sqrt {2n\ln \ln n}}\|{\widehat {F}}_{n}-F\|_{\infty }={\frac {\pi }{2}},\quad {\text{a.s.}}$

Intervalos de confianza[editar]

Según desigualdad de Dvoretzky-Kiefer-Wolfowitz el intervalo que contiene el verdadero CDF, $F(x)$ , con probabilidad $1-\alpha$ se especifica como

F_{n}(x)-\varepsilon \leq F(x)\leq F_{n}(x)+\varepsilon \;{\text{ where }}\varepsilon ={\sqrt {\frac {\ln {\frac {2}{\alpha }}}{2n}}}.

De acuerdo con los límites anteriores, podemos trazar los intervalos empíricos CDF, CDF y Confidence para diferentes distribuciones utilizando cualquiera de las implementaciones estadísticas. A continuación se muestra la sintaxis de Statsmodel para trazar la distribución empírica.

Implementación estadística[editar]

Una lista no exhaustiva de implementaciones de software de la función de distribución empírica es la siguiente:

En R software, calculamos una función empírica de distribución acumulativa, con varios métodos para trazar, imprimir y calcular con un objeto "ecdf".
En MATLAB podemos utilizar la gráfica de la función de distribución acumulativa empírica (cdf)
jmp de SAS, la gráfica CDF crea una gráfica de la función empírica de distribución acumulativa.
Minitab, crear un CDF empírico
Mathwave, podemos ajustar la distribución de probabilidad a nuestros datos
Dataplot, podemos trazar la gráfica empírica de CDF
Scipy Archivado el 24 de octubre de 2021 en Wayback Machine., usando scipy.stats podemos trazar la distribución
Statsmodels, podemos usar statsmodels.distributions.empirical_distribution. ECDF
Matplotlib, podemos usar histogramas para trazar una distribución acumulativa
Seaborn, utilizando la función seaborn.ecdfplot
Plotly, usando la función plotly.express.ecdf
Excel, podemos trazar la gráfica empírica de CDF

Referencias[editar]

↑ A modern introduction to probability and statistics: understanding why and how. Michel Dekking. London: Springer. 2005. p. 219. ISBN 978-1-85233-896-1. OCLC 262680588.
↑ ^a ^b ^c van der Vaart, A.W. (1998). Asymptotic statistics. Cambridge University Press. p. 265. ISBN 0-521-78450-6.
↑ «PlanetMath». Archivado desde el original el 9 de mayo de 2013. Consultado el 7 de octubre de 2022.
↑ Coles, S. (2001) An Introduction to Statistical Modeling of Extreme Values. Springer, p. 36, Definición 2.4. ISBN 978-1-4471-3675-0.
↑ Madsen, H.O., Krenk, S., Lind, S.C. (2006) Métodos de seguridad estructural. Publicaciones Dover. págs. 148-149. ISBN 0486445976
↑ ^a ^b van der Vaart, A.W. (1998). Asymptotic statistics. Cambridge University Press. p. 266. ISBN 0-521-78450-6.
↑ ^a ^b ^c van der Vaart, A.W. (1998). Asymptotic statistics. Cambridge University Press. p. 268. ISBN 0-521-78450-6.

Bibliografía[editar]

Shorack, G.R.; Wellner, J.A. (1986). Empirical Processes with Applications to Statistics. New York: Wiley. ISBN 0-471-86725-X.

[1] A modern introduction to probability and statistics: understanding why and how. Michel Dekking. London: Springer. 2005. p. 219. ISBN 978-1-85233-896-1. OCLC 262680588.

[vdv265-2] van der Vaart, A.W. (1998). Asymptotic statistics. Cambridge University Press. p. 265. ISBN 0-521-78450-6.

[3] «PlanetMath». Archivado desde el original el 9 de mayo de 2013. Consultado el 7 de octubre de 2022.

[4] Coles, S. (2001) An Introduction to Statistical Modeling of Extreme Values. Springer, p. 36, Definición 2.4. ISBN 978-1-4471-3675-0.

[5] Madsen, H.O., Krenk, S., Lind, S.C. (2006) Métodos de seguridad estructural. Publicaciones Dover. págs. 148-149. ISBN 0486445976

[vdv266-6] van der Vaart, A.W. (1998). Asymptotic statistics. Cambridge University Press. p. 266. ISBN 0-521-78450-6.

[vdv268-7] van der Vaart, A.W. (1998). Asymptotic statistics. Cambridge University Press. p. 268. ISBN 0-521-78450-6.

[1]

[2]

[3]

[4]

[5]

[6]

[7]