Corrección de Bessel

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

En estadística, la corrección de Bessel — así llamada por su creador Friedrich Bessel — consiste en el uso de n − 1 en lugar de n en la fórmula de la varianza muestral y la desviación típica muestral (siendo n es el número de observaciones de una muestra). Corrige el sesgo estadístico en la estimación de la varianza poblacional, y algunos (pero no todos) los sesgos en la estimación de la desviación estándar poblacional.

Cuando se estima la varianza y la desviación estándar poblacional desconocida a partir de una muestra, la varianza muestral es estimada como la media del cuadrado de la desviación estándar muestral. Se usa un factor multiplicador 1/n— que es un estimador sesgado de la varianza poblacional — que la subestima. Para corregirlo, Bessel multiplica por n/(n − 1) (equivalentemente, usando 1/(n − 1)en lugar de  1/n en la fórmula del estimador.) El costo de esta corrección es que el estimador insesgado es uniformemente mayor que el sesgado. A veces[1] [2] el factor n/(n − 1) es llamado Corrección de Bessel.

Un aspecto sutil de esta corrección implica que, mientras que la varianza muestral (usando la corrección de Bessel) es un estimador insesgado de la varianza poblacional, su raíz cuadrada (o sea, el desvío estándar muestral) sigue siendo un estimador sesgado del desvío estándar poblacional. Ya que la raíz cuadrada es una función cóncava, el sesgo es por defecto por la desigualdad de Jensen. No hay una fórmula general para evitar el sesgo del estimador del desvío estándar poblacional, aunque hay varios factores correctores para distribuciones particulares, como la normal. Una aproximación del factor corrector exacto en la distribución normal se da usando el n −  1.5 en la fórmula. El sesgo descae cuadráticamente (en lugar de linearmente, como en la forma no corregida por Bessel).

Puede entenderse la Corrección de Bessel intuitivamente, como los grados de libertad del vector de residuos.

(x_1-\overline{x},\,\dots,\,x_n-\overline{x}),

donde \overline{x} es la media muestral. Mientras que hay n muestras independientes, hay solamente n − 1 residuos independientes, que suman 0.

La fuente del sesgo[editar]

Supongamos que la media de cierta población es 2050, pero el estadístico no la conoce. Por lo tanto, la estima basado en una pequeña muestra elegida al azar de entre la población:

 2051,\quad 2053,\quad 2055,\quad 2050,\quad 2051 \,

Podemos calcular la media muestral:

 \frac{1}{5}\left(2051 + 2053 + 2055 + 2050 + 2051\right) = 2052

Esto puede servir como un estimador insesgado de la media poblacional, desconocida. Ahora, nos enfrentamos al problema de estimar la varianza poblacional. O sea, de estimar el promedio entre el cuadrado de las desviaciones de  2050. Si supiéramos que la media poblacional es de 2050, entonces podríamos proceder de la siguiente forma:

\begin{align}
   {} & \frac{1}{5}\left[(2051 - 2050)^2 + (2053 - 2050)^2 + (2055 - 2050)^2 + (2050 - 2050)^2 + (2051 - 2050)^2\right] \\
  =\; & \frac{36}{5} = 7.2
\end{align}

Pero nuestro estimador de la varianza poblacional es la varianza muestral 2052, no  2050. Por ende, sólo podemos hacer:

\begin{align}
   {} & \frac{1}{5}\left[(2051 - 2052)^2 + (2053 - 2052)^2 + (2055 - 2052)^2 + (2050 - 2052)^2 + (2051 - 2052)^2\right] \\
  =\; & \frac{16}{5} = 3.2
\end{align}

La estimación es substancialmente menor. Por lo tanto surge el interrogante: el estimador de la varianza poblacional usando la media muestral ¿Siempre es menor que la verdadera varianza poblacional? La respuesta es sí, excepto cuando la media muestral sea igual a la media poblacional.

En términos intuitivos, estamos buscando que la suma al cuadrado de la diferencia entre la media poblacional, pero terminamos calculando el cuadrado de la sumatoria entre la diferencia de la media muestral y el valor de cada observación, lo que es, como se verá a continuación, el número que minimiza la suma de las distancias al cuadrado. Por lo tanto, a menos que la muestra tenga como media a un valor igual al de la media poblacional, su estimador siempre subestimará a la varianza poblacional.

Para ver cómo es que sucede esto, usamos una identidad simple en álgebra:

(a + b)^2 = a^2 + 2ab + b^2\,

Con a representamos la desviación de una observación individual a la media muestral, y con b representamos la desviación entre la media muestral y la media poblacional. Nótese que lo que hicimos fue simplemente descomponer la desviación de la media poblacional (que es desconocida) en dos componentes: la desviación de la media muestral -que podemos calcular- y el adicional de la desviación de la media poblacional -que no podemos conocer-. Ahora, aplicando esta identidad, descomponemos:

\begin{align}
  {[}\,\underbrace{2053 - 2050}_{\begin{smallmatrix} \text{Desviación de} \\  \text{la media} \\  \text{poblacinal} \end{smallmatrix}}\,]^2 & = [\,\overbrace{(\,\underbrace{2053 - 2052}_{\begin{smallmatrix} \text{desviación de} \\ \text{la media muestral} \end{smallmatrix}}\,)}^{\text{Esto es }a.} + \overbrace{(2052 - 2050)}^{\text{Esto es }b.}\,]^2 \end{align}

Distribuimos el cuadrado:

\begin{align}
  & = \overbrace{(2053 - 2052)^2}^{\text{Esto es }a^2.} + \overbrace{2(2053 - 2052)(2052 - 2050)}^{\text{esto es }2ab.} + \overbrace{(2052 - 2050)^2}^{\text{Esto es}b^2.}
\end{align}

Ahora aplicamos esto a las 5 observaciones, y observamos el patrón.

\begin{align}
  \overbrace{(2051 - 2052)^2}^{\text{esto es }a^2.}\  +\  \overbrace{2(2051 - 2052)(2052 - 2050)}^{\text{esto es }2ab.}\  +\  \overbrace{(2052 - 2050)^2}^{\text{esto es }b^2.} \\
  (2053 - 2052)^2\  +\  2(2053 - 2052)(2052 - 2050)\  +\  (2052 - 2050)^2 \\
  (2055 - 2052)^2\  +\  2(2055 - 2052)(2052 - 2050)\  +\  (2052 - 2050)^2 \\
  (2050 - 2052)^2\  +\  2(2050 - 2052)(2052 - 2050)\  +\  (2052 - 2050)^2 \\
  (2051 - 2052)^2\  +\  \underbrace{2(2051 - 2052)(2052 - 2050)}_{\begin{smallmatrix} \text{la suma de los valores en esta} \\  \text{columna del medio debe ser 0.} \end{smallmatrix}}\  +\  (2052 - 2050)^2
\end{align}

La suma de los valores de la columna del medio debe ser cero, porque la suma de las desviaciones de la media muestral debe ser cero. Cuando la columna del medio desaparece, es cuando observamos que

  • la suma de los valores en la primera columna (a2) es la suma del cuadrado de las diferencias entre los valores de la variable y la media muestral;
  • La suma de todos los valores de las dos columnas que quedan, (a2 y b2) es la suma de los cuadrados de las diferencias entre los valores de la variable y su media poblacional, debido a la forma que comenzamos con la primer observación,  [2053 − 2050]2,e hicimos lo mismo con las siguientes cuatro observaciones;
  • La suma de todas las columnas debe ser mayor que la suma entre los valores de la primera columna, ya que todos los valores que no se eliminaron son positivos (excepto cuando la media poblacional y muestra coinciden, en cuyo caso todos los números de la última columna serán  0).

Por lo tanto, la suma de los cuadrados de las diferencias entre la media poblacional serán mayores que la suma de cuadrados de las desviaciones de la media muestral (excepto cuando la media poblacional y muestral coincidan, en cuyo caso ambas son iguales). Es por ésto que la suma de los cuadrados de las desviaciones de la media muestral es demasiado pequeña para ser un estimador insesgado de la varianza poblacional.

Notación y terminología[editar]

Ésta corrección es tan comun, que el término "varianza muestral" y "desvío estandar muestral" se refieren frecuentemente al estimador corregido, usando n − 1. Sin embargo se debe ser cauto: algunas calculadoras y paquetes estadísticos pueden dar la opción de usar ambos estimadores, o sólamente la versión menos usual. Para mayor presición en este artícula, denominamos "desviación estandar muestral" a la desviación estandar muestral, que por definición usa n, y está sesgado con respecto a la desviación estandar poblacional. --> Este artículo usa los siguientes símbolos y definiciones:

μ es la media poblacional
\overline{x}\, es la media muestral
σ2 es la varianza poblacional
sn2 es el estimador sesgado de la varianza (sin la corrección de Bessel)
s2 es el estimador insesgado de la varianza poblacional (con la corrección de Bessel).

Las desviaciones estándar se obtienen mediante aplicar la raiz a sus varianzas respectivas. Ya que las desviaciones estandar producen sesgo, la terminología "no corregido" o "corregido" se prefiere para los estimadores de la varianza poblacional.

sn Es la desviación estándar muestral no corregida (sin la corrección de Bessel)
s es la desviación estándar muestral corregida (con el estimador de Bessel), que está menos sesgado, pero sigue estando sesgado.

Fórmula[editar]

La media muestral se calcula:

\overline{x}=\frac{1}{n}\sum_{i=1}^n x_i.

La varianza muestral sesgada se escribe:

s_n^2 = \frac {1}{n} \sum_{i=1}^n  \left(x_i - \overline{x} \right)^ 2 = \frac{\sum_{i=1}^n \left(x_i^2\right)}{n} - \frac{\left(\sum_{i=1}^n x_i\right)^2}{n^2}.

Y la varianza muestral no sesgada se escribe:

s^2 = \frac {1}{n-1} \sum_{i=1}^n  \left(x_i - \overline{x} \right)^ 2 = \frac{\sum_{i=1}^n \left(x_i^2\right)}{n-1} - \frac{\left(\sum_{i=1}^n x_i\right)^2}{(n-1)n} = \left(\frac{n}{n-1}\right)\,s_n^2

Proof of correctness[editar]

Alternate proof of correctness[editar]

Véase también[editar]

Notas[editar]

  1. W.J. Reichmann, W.J. (1961) Use and abuse of statistics, Methuen. Reprinted 1964–1970 by Pelican. Appendix 8.
  2. Upton, G.; Cook, I. (2008) Oxford Dictionary of Statistics, OUP. ISBN 978-0-19-954145-4 (entry for "Variance (data)")

Enlaces externos[editar]