Error estándar

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda
Para un valor dado en una muestra aleatoria con un error distribuido normal, la imagen de arriba representa la proporción de muestras que pueden caer entre 0,1,2, y 3 desviaciones estándar por encima y por debajo del valor real.

El error estándar es la desviación estándar de la distribución muestral de un estadístico.[1] El término se refiere también a una estimación de la desviación estándar, derivada de una muestra particular usada para computar la estimación.

Concepto[editar]

La media muestral es el estimador usual de una media poblacional. Sin embargo, diferentes muestras escogidas de la misma población tienden en general a dar distintos valores de medias muestrales. El error estándar de la media (es decir, el error debido a la estimación de la media poblacional a partir de las medias muestrales) es la desviación estándar de todas las posibles muestras (de un tamaño dado) escogidos de esa población. Además, el error estándar de la media puede referirse a una estimación de la desviación estándar, calculada desde una muestra de datos que está siendo analizada al mismo tiempo.

En aplicaciones prácticas, el verdadero valor de la desviación estándar (o del error) es generalmente desconocido. Como resultado, el término "error estándar" se usa a veces para referirse a una estimación de esta cantidad desconocida. En tales casos es importante tener claro de donde proviene, ya que el error estándar es sólo una estimación. Desafortunadamente, esto no es siempre posible y puede ser mejor usar una aproximación que evite usar el error estándar, por ejemplo usando la estimación de máxima verosimilitud o una aproximación más formal derivada de los intervalos de confianza. Uno caso bien conocido donde se pueda usar de forma apropiada puede ser en la distribución t de Student para proporcionar un intervalo de confianza para una media estimada o diferencia de medias. En otros casos, el error estándar puede ser usado para proveer una indicación del tamaño de la incertidumbre, pero su uso formal o semi-formal para proporcionar intervalos de confianza o test debe ser evitado a menos que el tamaño de la muestra sea al menos moderadamente grande. Aquí el concepto "grande" dependerá de las cantidades particulares que vayan a ser analizadas.

En análisis de regresión, el término error estándar o error típico es también usado como la media de las diferencias entre la estimación por mínimos cuadrados y los valores dados de la muestra[2] [3]

Error estándar de la media[editar]

El error estándar de la media (llamado en inglés "standard error of the mean" (SEM)) cuantifica[4] las oscilaciones de la media muestral (media obtenida en los datos) alrededor de la media poblacional (verdadero valor de la media). El EEM o SEM se estima generalmente dividiendo la desviación estándar de la población entre la raíz cuadrada del tamaño de la muestra (asumiendo independencia estadística de los valores en la muestra):

SE_\bar{x}\ = \frac{s}{\sqrt{n}}

donde

s es la desviación estándar (es decir, la estimación basada en la muestra de la desviación estándar de la población).
n es el tamaño (número de individuos de la muestra)

Esta estimación puede ser comparada con la fórmula de la verdadera desviación estándar de la media de la muestra:

SD_\bar{x}\ = \frac{\sigma}{\sqrt{n}}

donde

σ es la verdadera desviación estándar de la población.

Esta fórmula puede alcanzarse desde lo que ya conocemos sobre la varianza de la suma de variables independientes aleatorias.[5]

  • Si  X_1, X_2 , \ldots, X_n son n observaciones independientes de una población que tiene una media  \mu y una desviación estándar  \sigma , entonces la varianza del total  T = (X_1 + X_2 + \cdots + X_n) is  n\sigma^2.
  • La varianza de  T/n debe ser  \frac{1}{n^2}n\sigma^2=\frac{\sigma^2}{n}.
  • Y la desviación estándar de  T/n debe ser  \sigma/{\sqrt{n}} .
  • Por supuesto,  T/n es la media de la muestra  \bar{x} .

Nota: El error estándar y la desviación estándar de muestras pequeñas tienden a infravalorar sistemáticamente el error estándar y la desviación estándar de la población: el error estándar de la media es un parámetro sesgado del error estándar de la población. Con n=2 la infravaloración puede ser del 25%, pero para n=6 la infravaloración es sólo del 5%.[6]

Supuestos y utilización[editar]

Si se asume que los datos utilizados están distribuidos por la normal, los cuantiles de la distribución normal, la media de la muestra y el error estándar pueden ser usados para calcular intervalos de confianza aproximados para la media. Las siguientes expresiones pueden ser usadas para calcular los límites de confianza por encima y por debajo del 95%, donde \bar{x} es igual a la media de la muestra, SE es igual al error estándar para la media de la muestra, y 1,96 es el cuantil 0.975 de la distribución normal:

Por encima del 95% Límite = \bar{x} + (SE\cdot 1.96) ,
Por debajo del 95% Límite = \bar{x} - (SE\cdot 1.96) .

En particular, el error estándar de una muestra estadística (como lo es de la media de la muestra) es la desviación estándar estimada del error en el proceso que ésta es generada. En otras palabras, el error estándar es la desviación estándar de la distribución muestral de la muestra estadística. La notación para el error estándar (del inglés) puede ser SE, SEM (por error estándar de "medida" (measurement) o "media" (mean)), o S_E.

Los errores estándar proporcionan una medida sobra la incertidumbre de las medidas de la muestra en un único valor que es usado a menudo porque:

  • Si el error estándar de varias cantidades individuales es conocido entonces el error estándar de alguna función matemática de esas cantidades puede ser fácilmente calculado en muchos casos:
    • Donde la distribución de probabilidad del valor es conocida, ésta puede ser usada para calcular una buena aproximación de un intervalo de confianza exacto.
    • Donde la distribución de probabilidad es desconocida, relaciones como la Desigualdad de Chebyshov o la desigualdad de Vysochanskiï–Petunin pueden ser usadas para calcular unos intervalos de confianza conservativos.
  • Como el tamaño de la muestra tiende a infinito, el teorema del límite central garantiza que la distribución de la media muestral es asintóticamente la distribución normal.

Referencias[editar]

  1. Everitt, B.S. (2003) The Cambridge Dictionary of Statistics, CUP. ISBN 0-521-81099-X
  2. Kenney, J. and Keeping, E.S. (1963) Mathematics of Statistics, van Nostrand, p. 187
  3. Zwillinger D. (1995), Standard Mathematical Tables and Formulae, Chapman&Hall/CRC. ISBN 0-8493-2479-3 p. 626
  4. Abraira, V. «Desviación estándar y error estándar».
  5. T.P. Hutchinson, Essentials of statistical methods in 41 pages
  6. Gurland, J; Tripathi RC (1971). «A simple approximation for unbiased estimation of the standard deviation». American Statistician (American Statistical Association) 25 (4):  pp. 30–32. doi:10.2307/2682923.