Muestra estadística

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

En estadística, una muestra es un subconjunto de casos o individuos de una población estadística.

Las muestras se obtienen con la intención de inferir propiedades de la totalidad de la población, para lo cual deben ser representativas de la misma. Para cumplir esta característica la inclusión de sujetos en la muestra debe seguir una técnica de muestreo. En tales casos, puede obtenerse una información similar a la de un estudio exhaustivo con mayor rapidez y menor coste (véanse las ventajas de la elección de una muestra, más abajo).

Por otra parte, en ocasiones, el muestreo puede ser más exacto que el estudio de toda la población porque el manejo de un menor número de datos provoca también menos errores en su manipulación. En cualquier caso, el conjunto de individuos de la muestra son los sujetos realmente estudiados.

El número de sujetos que componen la muestra suele ser bastante inferior a la población total, aunque suficiente grande como para que la estimación de los parámetros determinados tenga un nivel de confianza adecuado. Para que el tamaño de la muestra sea idóneo es preciso recurrir a su cálculo.

Otras definiciones relacionadas[editar]

Espacio muestral[editar]

El espacio muestral del que se toma una muestra concreta está formado por el conjunto de todas las posibles muestras que se pueden extraer de una población mediante una determinada técnica de muestreo.

Parámetro o Estadístico muestral[editar]

Un parámetro estadístico o simplemente un estadístico muestral es cualquier valor calculado a partir de la muestra, como por ejemplo la media, varianza o una proporción, que describe a una población y puede ser estimado a partir de una muestra. Un estadístico muestral es un tipo de variable aleatoria, y que como tal, tiene una distribución de probabilidad concreta, frecuentemente caracterizada por un conjunto finito de parámetros.

Estimación[editar]

Una estimación es cualquier técnica para conocer un valor aproximado de un parámetro referido a la población, a partir de los estadísticos muestrales calculados a partir de los elementos de la muestra. Si se estima el suficiente número de parámetros puede aproximarse de manera razonable la distribución de probabilidad de la población para ciertas variables aleatorias.

Nivel de confianza[editar]

El nivel de confianza de una aseveración basada en la inferencia estadística es una medida de la bondad de la estimación realizada a partir de estadísticos muestrales. Usualmente se usan niveles de confianza para intervalos de confianza o bien p-valores que miden la probabilidad de errores de tipo I (probabilidad de rechazar una cierta hipótesis siendo que esta era correcta).

Ejemplo[editar]

Se tiene una población de 222.222 habitantes y se quiere conocer cuantos de ellos son hombres y cuantos de ellos son mujeres. Se conjetura que cerca del 50% son mujeres y el resto hombres, pero se quiere seleccionar una muestra para determinar cuantos hombres y mujeres hay en la muestra y a partir de ahí inferior el porcentaje exacto de hombres y mujeres en la población total. La descripción de una muestra, y los resultados obtenidos sobre ella, puede ser del tipo mostrado en el siguiente ejemplo:

Dimensión de la población: 222.222 habitantes
Probabilidad del evento: Hombre o Mujer 50%
Nivel de confianza: 90%
Desviación tolerada: 5%
Resultado 196
Tamaño de la muestra: 270

La interpretación de esos datos sería la siguiente:

  1. La población a investigar tiene 222.222 habitantes y queremos saber cuántos son hombres o mujeres.
  2. Estimamos en un 50% para cada sexo y para el propósito del estudio es suficiente un 90% de seguridad con un nivel entre 90 - 5 y 90 + 5.
  3. Generamos una tabla de 270 números al azar entre 1 y 222.222 y en un censo numerado comprobamos el género para los seleccionados.

Ventajas de la elección de una muestra[editar]

El estudio de muestras es preferible, en la mayoría de los casos, por las siguientes razones:

  1. Si la población es muy grande (en ocasiones, infinita, como ocurre en determinados experimentos aleatorios) y, por tanto, imposible de analizar en su totalidad.
  2. Las características de la población varían si el estudio se prolonga demasiado tiempo.
  3. Reducción de costos: al estudiar una pequeña parte de la población, los gastos de recogida y tratamiento de los datos serán menores que si los obtenemos del total de la población.
  4. Rapidez: al reducir el tiempo de recogida y tratamiento de los datos, se consigue mayor rapidez.
  5. Viabilidad: la elección de una muestra permite la realización de estudios que serían imposible hacerlo sobre el total de la población.
  6. La población es suficientemente homogénea respecto a la característica medida, con lo cual resultaría inútil malgastar recursos en un análisis exhaustivo (por ejemplo, muestras sanguíneas).
  7. El proceso de estudio es destructivo o es necesario consumir un artículo para extraer la muestra (ejemplos: vida media de una bombilla, carga soportada por una cuerda, precisión de un proyectil, etc.).

Descripción matemática de una muestra aleatoria[editar]

El uso de muestras para deducir fiablemente características de la población requiere que se trate con muestras aleatorias. Si la muestra estadística considerada no constituye una muestra aleatoria las conclusiones basadas en dicha muestra no son fiables y en general estarán sesgadas en algún aspecto.

En términos matemáticos, dada una variable aleatoria X con una distribución de probabilidad F, una muestra aleatoria de tamaño N es un conjunto finito de N variables independientes, con la misma distribución de probabilidad F.[1]

Otra forma más intuitiva, de entender una muestra es considerar que una muestra es una sucesión de N experimentos independientes de una misma cantidad. Es importante diferenciar una muestra de tamaño N, o más exactamente un muestreo de tamaño N, del resultado concreto de los N experimentos (que como conjunto de valores fijos, en sí mismo, no es una muestra). El concepto de muestra incluye de alguna manera el procedimiento escogido para obtener los datos (es decir, si las variables aleatorias consideradas son independientes entre sí, y si tienen la misma distribución).

En general, resulta muy difícil comprobar si una determinada muestra es o no aleatoria, cosa que sólo puede hacerse considerando otro tipo de muestreos aleatorios robustos que permitan decir si la primera muestra era aleatoria o no.

Referencias[editar]

  1. Samuel S. Wilks, Mathematical Statistics, John Wiley, 1962, Section 8.1