Problema de los tanques alemanes

En la teoría estadística de la estimación, estimar el máximo de una distribución uniforme discreta es un ejemplo común de las diferencias entre métodos de estimación. El caso específico de tomar muestras sin reemplazo de una distribución uniforme discreta es conocido en el mundo angloparlante como problema de los tanques alemanes debido a su aplicación real durante la Segunda Guerra Mundial a la estimación del número de tanques alemanes.

Estimar el máximo de una población basándose en una única muestra suscita cuestiones filosóficas sobre la evaluación de estimadores y probabilidad (particularmente el sesgo de un estimador de máxima probabilidad) y puede llevar a resultados divergentes, mientras que la estimación basada en múltiples muestras se usa en la educación estadística elemental como una cuestión instructiva en la estimación práctica cuya solución es simple pero no obvia.

El problema es habitualmente expuesto en el caso de una distribución discreta, pero un análisis virtualmente idéntico es también correcto para una distribución continua.

Ejemplo

Se puede formular el problema de la estimación del máximo en una población de la siguiente manera:

Suponga ser un analista de inteligencia para los Aliados durante la Segunda Guerra Mundial, y tener algunos números de serie de tanques alemanes capturados. Además, asuma que todos los tanques alemanes han sido numerados secuencialmente desde 1 hasta N. ¿Cómo se podría estimar el número total de tanques?

Para la estimación puntual (estimar un valor único para el total), el estimador de mínima varianza sin sesgo viene dado por la fórmula:

{\hat {N}}=m+{\frac {m-k}{k}}=m+{\frac {m}{k}}-1={\frac {(k+1)}{k}}m-1

donde m es el mayor número de serie observado (máximo de la muestra) y k es el número de tanques observado (tamaño de la muestra).^[1] ^[2] ^[3] La fórmula puede entenderse como

"El máximo en la muestra más el hueco medio en la muestra"

En la primera ecuación, el primer sumando es el máximo y el segundo sumando es el hueco medio.

El nombre del estimador (sin sesgo) se puede entender si consideramos que estamos tomando el máximo de la muestra como nuestra estimación básica y luego corrigiendo su sesgo, tendente a "subestimar" el verdadero máximo de la población, puesto que el máximo en la muestra puede ser igual o menor, pero nunca mayor que el máximo de la población.

Nótese que, debido a la suposición de que no hay reemplazo, una vez se ha observado un número de serie, ya no se encuentra en el repositorio de observaciones y no puede volver a ser visto.

Problema histórico

En tiempos de guerra, un objetivo clave de la inteligencia militar es determinar la fuerza numérica del enemigo: en la Segunda Guerra Mundial, los Aliados querían estimar el número de tanques que tenían los alemanes, y trataron de solucionar este problema desde dos enfoques diferentes: la recopilación de fuentes de inteligencia convencionales, y la estimación estadística. El enfoque estadístico resultó ser mucho más preciso que los métodos convencionales de inteligencia, según demostró el análisis a posteriori publicado por Ruggles y Brodie.^[4]^{[notes 1]} En algunos casos el análisis estadístico contradijo y mejoró sustancialmente la inteligencia convencional; en otros, la inteligencia convencional y el enfoque estadístico trabajaron juntos, como por ejemplo en la estimación de la producciones de tanques Panther, discutida más adelante. Estimar la producción no fue el único uso de este análisis de números en serie; se utilizó también para comprender la producción alemana más generalmente, incluyendo el número de fábricas, la importancia relativa de cada una de ellas, la longitud de las cadenas de suministros (basándose en el retraso entre producción y uso de los tanques), cambios en la producción, y el uso de recursos como el caucho.

Para estimar el número de tanques producidos hasta un momento determinado, los Aliados usaron los números de serie de los tanques. Los números usados principalmente fueron los de la caja de cambios, puesto que esto formaban dos secuencias no interrumpidas. Los números de chasis y de motor fueron también usados, aunque su utilización resultó más compleja. Varios otros componentes fueron utilizados para la comprobación cruzada del análisis. Análisis similares fueron hechos sobre los neumáticos^[4] al observarse que éstos también estaban numerados secuencialmente (por ejemplo desde 1 hasta N).^{[notes 2]}^[5]^[6]

Datos específicos

Según las estimaciones de la inteligencia convencional aliada, los alemanes estaban produciendo en torno a 1400 tanques por mes entre junio de 1940 y septiembre de 1942. Aplicando la fórmula citada más abajo a los números de serie de los tanques alemanes capturados (tanto aquellos que aún estuvieran en estado de ser utilizados como aquellos parcialmente destruidos), el número resultante se calculó en 256 al mes. Después de la guerra, las cifras de producción oficiales, obtenidas de documentos incautados en el Ministerio de la Guerra de Albert Speer, mostraron que el número real fue de 255.^[5]

Se han citado las siguientes estimaciones para algunos meses específicos:^[7]^[8]

Mes	Estimación estadística	Estimación de inteligencia	Registro alemán
Junio de 1940	169	1000	122
Junio de 1941	244	1550	271
Agosto de 1942	327	1550	342

Poco antes del Día D, siguiendo los rumores de una gran producción de tanques Panther obtenidos por la inteligencia convencional, un análisis de las marcas en la carretera de dos tanques (consistentes cada una de 48 ruedas, para un total de 96 ruedas) obtuvo una estimación de 270 Panthers producidos en febrero de 1944, substancialmente más de lo que se sospechaba previamente; los registros alemanes hallados tras la guerra mostraron que la producción para ese mes fue de 276.^[9] Específicamente, el análisis de las huellas dieron una estimación para el número de moldes usados para fabricar las ruedas; una consulta a los productores de ruedas para carretera en Gran Bretaña estimó a continuación cuál era el número de ruedas que era posible producir con ese número de moldes.

Análisis similares

La producción de cohetes V-2 fue estimada con precisión mediante métodos estadísticos.

Análisis similares sobre los números de serie fueron utilizados para otros tipos de pertrechos militares, con el mayor éxito en la estimación de la producción de cohetes V-2^[10]

Durante la Segunda Guerra Mundial, la inteligencia alemana analizó las marcas de fábrica de los vehículos militares soviéticos, y durante la Guerra de Corea, las marcas de fábrica en los vehículos soviéticos fueron de nuevo analizadas, esta vez por los americanos. Los soviéticos también estimaron la producción de tanques alemana durante la Segunda Guerra Mundial.^[11]

En los años 80, algunos ciudadanos estadounidenses obtuvieron acceso a la línea de producción de los tanques israelíes Merkava. Los números de producción eran secretos, pero los tanques tenían números de serie, permitiendo una estimación de la producción.^[1]

Contramedidas

Para evitar el análisis de números de serie, uno puede simplemente no incluir número de serie en el equipamiento militar, o reducir la información auxiliar que pueda ser usable. Alternativamente, se pueden diseñar números de serie que resistan el criptoanálisis; la manera más efectiva es elegir números al azar y sin reemplazo de una lista que sea mucho más larga que el número de objetos a producir (véase la técnica de la libreta de un solo uso para el cifrado de mensajes), o simplemente producir números al azar y compararlos con la lista de números ya asignados; las colisiones tienen posibilidad de aparecer mientras el número de dígitos posible no sea mayor del doble de los dígitos en el número de objetos a producir (aquí el número de serie puede estar expresado en base decimal, base hexadecimal o en cualquier base); véase la paradoja del cumpleaños.^{[notes 3]} Para esto, se puede usar un generador de números pseudoaleatorios criptográficamente seguro. Con menor grado de seguridad, para evitar problemas de búsqueda, se puede usar cualquier generador de números pseudoaleatorios con un periodo largo, que garantice la ausencia de colisiones. Todos estos métodos requieren de una tabla de consulta (o romper el cifrado) para recuperar desde los números de serie el orden de producción, lo que dificulta el uso de los números de serie: uno no puede simplemente recordar un rango de números de serie, por ejemplo, sino que debe consultar individualmente cada uno de ellos, o generar una lista.

Alternativamente, se podrían usar números de serie secuenciales y encriptarlos, lo que permitiría una descodificación sencilla, pero entonces existe un ataque de texto plano conocido: aunque uno empiece desde un punto arbitrario, el texto plano tiene un patrón (a saber, los números forman una secuencia).

Notas

↑ La publicación de Ruggles y Brodie es un análisis práctico y un resumen, no una publicación matemática. El problema de estimación solo es mencionado en una nota a pie de página, específicamente en la nota 3 de la página 82, donde estiman el máximo como "el máximo de la muestra + el hueco medio".
↑ El límite inferior era desconocido, pero para simplificar la discusión este detalle es normalmente omitido, suponiendo que los analistas tomaban 1 como límite inferior
↑ También discutido en ataque de cumpleaños, se puede esperar una colisión después de 1.25√H números, si se está eligiendo entre H números en la lista.

Referencias

↑ ^a ^b Johnson, Roger (1994). «Estimating the Size of a Population». Teaching Statistics 16 (2): 50. doi:10.1111/j.1467-9639.1994.tb00688.x. Archivado desde el original el 26 de mayo de 2009. Consultado el 18 de octubre de 2010.
↑ Johnson, Roger (2006). «Estimating the Size of a Population». Getting the Best from Teaching Statistics. Archivado desde el original el 20 de noviembre de 2008.
↑ Joyce Smart. German Tank Problem Logan High School cita Activity Based Statistics [by Richard L. Scheaffer (?)] p. 148-150. Exploring Surveys and Information from Samples, [by James M. Landwehr (?)] Section IX, p. 75–83. Statistical Reasoning, Gary Smith, p. 148-149
↑ ^a ^b Ruggles, Richard; Brodie, Henry (marzo de 1947). «An empirical approach to economic intelligence in WWII». Journal of the American Statistical Association (American Statistical Association) 42 (237): 72-91. JSTOR 2280189. doi:10.2307/2280189.
↑ ^a ^b Gavyn Davies. How a statistical formula won the war The Guardian, 20 de julio de 2006
↑ Matthews, Robert (23 de mayo de 1998). «Data sleuths go to war, sidebar in feature 'Hidden truths'». New Scientist. Archivado desde el original el 18 de abril de 2001.
↑ Ruggles & Brodie, p. 89
↑ Order Statistics, in Virtual Laboratories in Probability and Statistics
↑ Ruggles & Brodie, pp. 82–83
↑ Ruggles & Brodie, pp. 90–91
↑ Volz, Arthur G. (julio de 2008). «A Soviet Estimate of German Tank Production». The Journal of Slavic Military Studies 21 (3): 588-590. doi:10.1080/13518040802313902.

Datos: Q3751512

[5] La publicación de Ruggles y Brodie es un análisis práctico y un resumen, no una publicación matemática. El problema de estimación solo es mencionado en una nota a pie de página, específicamente en la nota 3 de la página 82, donde estiman el máximo como "el máximo de la muestra + el hueco medio".

[6] El límite inferior era desconocido, pero para simplificar la discusión este detalle es normalmente omitido, suponiendo que los analistas tomaban 1 como límite inferior

[14] También discutido en ataque de cumpleaños, se puede esperar una colisión después de 1.25√H números, si se está eligiendo entre H números en la lista.

[Johnson-1] Johnson, Roger (1994). «Estimating the Size of a Population». Teaching Statistics 16 (2): 50. doi:10.1111/j.1467-9639.1994.tb00688.x. Archivado desde el original el 26 de mayo de 2009. Consultado el 18 de octubre de 2010.

[Johnson2-2] Johnson, Roger (2006). «Estimating the Size of a Population». Getting the Best from Teaching Statistics. Archivado desde el original el 20 de noviembre de 2008.

[3] Joyce Smart. German Tank Problem Logan High School cita Activity Based Statistics [by Richard L. Scheaffer (?)] p. 148-150. Exploring Surveys and Information from Samples, [by James M. Landwehr (?)] Section IX, p. 75–83. Statistical Reasoning, Gary Smith, p. 148-149

[rb-4] Ruggles, Richard; Brodie, Henry (marzo de 1947). «An empirical approach to economic intelligence in WWII». Journal of the American Statistical Association (American Statistical Association) 42 (237): 72-91. JSTOR 2280189. doi:10.2307/2280189.

[Davies-2006-07-20-7] Gavyn Davies. How a statistical formula won the war The Guardian, 20 de julio de 2006

[8] Matthews, Robert (23 de mayo de 1998). «Data sleuths go to war, sidebar in feature 'Hidden truths'». New Scientist. Archivado desde el original el 18 de abril de 2001.

[9] Ruggles & Brodie, p. 89

[10] Order Statistics, in Virtual Laboratories in Probability and Statistics

[11] Ruggles & Brodie, pp. 82–83

[12] Ruggles & Brodie, pp. 90–91

[13] Volz, Arthur G. (julio de 2008). «A Soviet Estimate of German Tank Production». The Journal of Slavic Military Studies 21 (3): 588-590. doi:10.1080/13518040802313902.

[1]

[2]

[3]

[4]

[notes 1]

[notes 2]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[notes 3]