Distribución uniforme discreta

De Wikipedia, la enciclopedia libre
Ir a la navegación Ir a la búsqueda

En teoría de probabilidad y estadística, la distribución uniforme discreta es una distribución de probabilidad discreta simétrica que surge en espacios de probabilidad equiprobables, es decir, en situaciones donde de resultados diferentes, todos tienen la misma probabilidad de ocurrir.

Un ejemplo simple de la distribución uniforme discreta es tirar los dados. Los valores posibles son 1, 2, 3, 4, 5, 6 y cada vez que se lanza el dado, la probabilidad de una puntuación determinada es de 1/6. Si se lanzan dos dados y se suman sus valores, la distribución resultante ya no es uniforme porque no todas las sumas tienen la misma probabilidad. Aunque es conveniente describir distribuciones uniformes discretas sobre enteros, como este, también se pueden considerar distribuciones uniformes discretas sobre cualquier conjunto finito . Por ejemplo, una permutación aleatoria es una permutación generada uniformemente a partir de las permutaciones de una longitud determinada, y un árbol de expansión uniforme es un árbol de expansión. generado uniformemente a partir de los árboles de expansión de un gráfico dado.

La distribución uniforme discreta en sí misma es intrínsecamente no paramétrica. Es conveniente, sin embargo, para representar sus valores en general por todos los números enteros en un intervalo [ a , b ], de modo que una y b se convierten en los principales parámetros de la distribución (a menudo uno simplemente considera el intervalo [1, n ] con la sola parámetro n ). Con estas convenciones, la función de distribución acumulativa (CDF) de la distribución uniforme discreta se puede expresar, para cualquier k ∈ [ a , b ], como

Definición[editar]

Notación[editar]

Si es una variable aleatoria discreta cuyo soporte es el conjunto y tiene una distribución uniforme discreta entonces escribiremos .

Función de probabilidad[editar]

La función de probabilidad de es

para

Propiedades[editar]

Distribución uniforme discreta.

Si entonces la variable aleatoria satisface algunas propiedades.

Media[editar]

La media de la variable aleatoria es

Varianza[editar]

La varianza de la variable aleatoria es

Propiedades[editar]

La familia de distribuciones uniformes sobre rangos de números enteros (con uno o ambos límites desconocidos) tiene un estadístico suficiente de dimensión finita, es decir, el triple del máximo de la muestra, el mínimo de la muestra y el tamaño de la muestra, pero no es una familia exponencial de distribuciones, porque el soporte varía con los parámetros. Para las familias cuyo apoyo no depende de los parámetros, el teorema de Pitman-Koopman-Darmois establece que solo las familias exponenciales tienen una estadística suficiente cuya dimensión está acotada a medida que aumenta el tamaño de la muestra. La distribución uniforme es, por tanto, un ejemplo sencillo que muestra el límite de este teorema.

Ejemplos[editar]

  • Para un dado perfecto, todos los resultados tienen la probabilidad de .
  • Para una moneda perfecta, todos los resultados tienen la probabilidad de .

Problema del tanque alemán[editar]

Se puede formular el problema de la estimación del máximo en una población de la siguiente manera:

Suponga ser un analista de inteligencia para los Aliados durante la Segunda Guerra Mundial, y tener algunos números de serie de tanques alemanes capturados. Además, asuma que todos los tanques alemanes han sido numerados secuencialmente desde 1 hasta N. ¿Cómo se podría estimar el número total de tanques?

Para la estimación puntual (estimar un valor único para el total), el estimador de mínima varianza sin sesgo viene dado por la fórmula:

donde m es el mayor número de serie observado (máximo de la muestra) y k es el número de tanques observado (tamaño de la muestra).[1][2][3]​ La fórmula puede entenderse como

"El máximo en la muestra más el hueco medio en la muestra"

En la primera ecuación, el primer sumando es el máximo y el segundo sumando es el hueco medio.

El nombre del estimador (sin sesgo) se puede entender si consideramos que estamos tomando el máximo de la muestra como nuestra estimación básica y luego corrigiendo su sesgo, tendente a "subestimar" el verdadero máximo de la población, puesto que el máximo en la muestra puede ser igual o menor, pero nunca mayor que el máximo de la población.

Nótese que, debido a la suposición de que no hay reemplazo, una vez se ha observado un número de serie, ya no se encuentra en el repositorio de observaciones y no puede volver a ser visto.

Datos específicos
Según las estimaciones de la inteligencia convencional aliada, los alemanes estaban produciendo en torno a 1400 tanques por mes entre junio de 1940 y septiembre de 1942. Aplicando la fórmula citada arriba a los números de serie de los tanques alemanes capturados (tanto aquellos que aún estuvieran en estado de ser utilizados como aquellos parcialmente destruidos), el número resultante se calculó en 256 al mes. Después de la guerra, las cifras de producción oficiales, obtenidas de documentos incautados en el Ministerio de la Guerra de Albert Speer, mostraron que el número real fue de 255.[4]

Se han citado las siguientes estimaciones para algunos meses específicos:[5][6]

Mes Estimación estadística Estimación de inteligencia Registro alemán
Junio de 1940 169 1000 122
Junio de 1941 244 1550 271
Agosto de 1942 327 1550 342

Véase también[editar]

Referencias[editar]

  1. Johnson, Roger (1994). «Estimating the Size of a Population». Teaching Statistics 16 (2): 50. doi:10.1111/j.1467-9639.1994.tb00688.x. Archivado desde el original el 26 de mayo de 2009. Consultado el 18 de octubre de 2010. 
  2. Johnson, Roger (2006). «Estimating the Size of a Population». Getting the Best from Teaching Statistics. Archivado desde el original el 20 de noviembre de 2008. 
  3. Joyce Smart. German Tank Problem Logan High School cita Activity Based Statistics [by Richard L. Scheaffer (?)] p. 148-150. Exploring Surveys and Information from Samples, [by James M. Landwehr (?)] Section IX, p. 75–83. Statistical Reasoning, Gary Smith, p. 148-149
  4. Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas Davies-2006-07-20
  5. Ruggles & Brodie, p. 89
  6. Order Statistics, in Virtual Laboratories in Probability and Statistics