Teoría de valores extremos

La teoría de valores extremos o análisis de valores extremos (AVE) es una rama de la estadística que trata de las desviaciones respecto a al valor esperado de una distribución de probabilidad.

El objetivo del análisis de valores extremos, es evaluar, dada una muestra de una variable aleatoria, la probabilidad de eventos o valores más extremos que los observados previamente. Por esa razón el análisis de valor extremo se usa ampliamente en muchas disciplinas, como la ingeniería estructural, el análisis del riesgo financiero, las ciencias geológicas, la ingeniería sísmica e hidrológica o la predicción del tráfico. Así por ejemplo el AVE se ha usado en hidrología para estimar la probabilidad de una riada o inundación inusual, que en inglés se denomina 100-year flood ("inundación del siglo" así llamada por considerarse de una probabilidad de ocurrencia de un 1% anual). Análogamente, en el diseño de rompeolas un ingeniero de costas debería estimar el oleaje máximo en un período de unos 50 años, para dimensionar adecuadamente la infraestructura.

Análisis de datos[editar]

Actualmente existen dos enfoques prácticos del análisis de valores extremos:

El primer enfoque o método descansa en establecer una serie de bloques máximos (mínimos) como paso inicial. En muchas situaciones es costumbre y además resulta conveniente extraer los máximos anuales (o mínimos anuales), generando la "serie de máximos anuales" (SMA).
El segundo método descansa en considerar, de un registro continuo, los valores pico alcanzados en cada período durante los cuales los valores excedían cierto umbral (caídas por debajo de cierto nivel). Este método se denomina usualmente el "método del pico sobre el umbral" (PSU)^[1] y puede llevar a que se obtengan muchos valores o ningún valor para un año concreto.

Para datos por el método SMA, el análisis puede descansar parcialmente en los resultados del teorema de Fisher-Tippett-Gnedenko, lo cual conlleva usar distribuciones generalizadas de valor extremo para ajustar los datos.^[2]^[3] Sin embargo, en la práctica, se aplican varios procedimientos para escoger entre un rango más amplio de distribuciones. El teorema en cuestión relaciona las distribuciones límites para los máximos o mínimos de una gran colección de variables aleatorias independientes que tienen la misma distribución. Dado que el número de eventos aleatorios relevantes producidos en un único año pueden ser limitados, no es sorprenderte que los análisis de datos agrupados por el método SMA frecuentemente conduzcan a distribuciones que se apartan de distribuciones de valor extremo generalizado.^[4]

Para datos obtenidos por el método PSU, el análisis involucra ajustar dos distribuciones: una para el número de eventos en cada período básico de tiempo y un segundo ajuste para la distribución de los excesos. Una asunción común para el número de eventos consiste en usar la distribución de Poisson, mientras que para los excesos se emplea una distribución generalizada de Pareto. En este caso se necesita alguna teoría adicional para estimar la distribución de los valores extremos más allá de los observados. Un objetivo alternativo podría ser estimar los costes esperados asociados a eventos inusuales durante un cierto período. En los análisis PSU el resultado matemático fundamental es el teorema de Pickands-Balkema-De Haan.^[5]^[6]

Aplicaciones[editar]

Las aplicaciones de la teoría de valores extremos incluyen estimar la probabilidad de eventos como:

Inundaciones atípicas e inusuales.
Que la cantidad de grandes pérdidas de una aseguradora sobrepase un cierto umbral.
Riesgos financieros importantes.
Grandes Incendios en superficies forestales.^[7]
Impacto ambiental sobre estructuras^[8]
Que la renta máxima de algunos individuos, esté un cierto número de veces por encima de la renta nacional per cápita
Estimar el tiempo más corto posible en la prueba de los 100 metros^[9] y rendimiento en otras disciplinas atléticas.^[10]^[11]
Optimización heurística

Historia de la disciplina[editar]

El análisis de valores extremos fue inaugurado por Leonard Tippett (1902–1985). Tippett era un empleado de la British Cotton Industry Research Association, donde trabajaba para desarrollar fibras de algodón más resistentes. En sus estudios, apreció que la resistencia de un hilo dependía críticamente de la resistencia de la fibra más débil. Con la ayuda de R. A. Fisher, obtuvo tres límites asintóticos que describían la distribución de valores extremos (se ilustran en un teorema conocido como de Fisher-Tippett-Gnedenko). Emil Julius Gumbel codificó esta teoría en su libro de 1950 titulado Statistics of Extremes, que incluía la distribución que ahora lleva su nombre (Distribución de Gumbel).

Teoría univariada[editar]

Artículo principal: Teorema de Fisher-Tippett-Gnedenko

Sean $X_{1},\dots ,X_{n}$ una sucesión de variables aleatorias i.i.d. con la misma función de distribución F y sea $M_{n}=\max(X_{1},\dots ,X_{n})$ el máximo de los valores de una muestra de n valores.

En teoría, la distribución exacta de los máximos puede obtenerse directamente:

${\begin{aligned}\Pr(M_{n}\leq z)&=\Pr(X_{1}\leq z,\dots ,X_{n}\leq z)\\&=\Pr(X_{1}\leq z)\cdots \Pr(X_{n}\leq z)=(F(z))^{n}.\end{aligned}}$

La función indicatriz asociada $I_{n}=I(M_{n}>z)$ es un proceso de Bernoulli con una probabilidad de éxito $p(z)=(1-(F(z))^{n})$ que depende de la magnitud $z$ del evento extremo. El número de eventos extremos en $n$ intentos por tanto sigue una distribución binomial y el número de ensayos hasta que ocurra un evento de ese tipo sigue una distribución geométrica con valor esperado y desviación estándar del mismo orden de magnitud $O(1/p(z))$ .

Referencias[editar]

↑ Leadbetter (1991)
↑ Fisher and Tippett (1928)
↑ Gnedenko (1943)
↑ Embrechts, Klüppelberg, and Mikosch (1997)
↑ Pickands (1975)
↑ Balkema and de Haan (1974)
↑ Alvardo (1998, p.68.)
↑ Makkonen (2008)
↑ J.H.J. Einmahl & S.G.W.R. Smeets (2009), «Ultimate 100m World Records Through Extreme-Value Theory», CentER Discussion Paper, Tilburg University 57, archivado desde el original el 12 de marzo de 2016, consultado el 12 de agosto de 2009 .
↑ D. Gembris, J.Taylor & D. Suter (2002), «Trends and random fluctuations in athletics», Nature 417: 506, doi:10.1038/417506a .
↑ D. Gembris, J.Taylor & D. Suter (2007), «Evolution of athletic records : Statistical effects versus real improvements», Journal of Applied Statistics 34 (5): 529-545, doi:10.1080/02664760701234850, consultado el 3 de enero de 2014 .

Bibliografía[editar]

Abarbane, H.; Koonin, S.; Levine, H.; MacDonald, G.; Rothaus, O. (January 1992), «Statistics of Extreme Events with Application to Climate» (PDF), JASON, JSR-90-30S, consultado el 3 de marzo de 2015 .
Alvarado, Ernesto; Sandberg, David V.; Pickford, Stewart G. (1998), «Modeling Large Forest Fires as Extreme Events» (PDF), Northwest Science 72: 66-75, archivado desde el original el 26 de febrero de 2009, consultado el 6 de febrero de 2009 .
Balkema, A.; de Haan, Laurens (1974), «Residual life time at great age», Annals of Probability 2: 792-804, JSTOR 2959306, doi:10.1214/aop/1176996548 .
Burry K.V. (1975). Statistical Methods in Applied Science. John Wiley & Sons.
Castillo E. (1988) Extreme value theory in engineering. Academic Press, Inc. New York. ISBN 0-12-163475-2.
Castillo,E., Hadi,A. S., Balakrishnan, N. and Sarabia, J. M. (2005) Extreme Value and Related Models with Applications in Engineering and Science, Wiley Series in Probability and Statistics Wiley, Hoboken, New Jersey. ISBN 0-471-67172-X.
Coles S. (2001) An Introduction to Statistical Modeling of Extreme Values. Springer, London.
Embrechts P., Klüppelberg C. and Mikosch T. (1997) Modelling extremal events for insurance and finance. Berlín: Spring Verlag
Fisher, R.A.; Tippett, L.H.C. (1928), «Limiting forms of the frequency distribution of the largest and smallest member of a sample», Proc. Cambridge Phil. Soc. 24: 180-190, doi:10.1017/s0305004100015681 .
Gnedenko, B.V. (1943), «Sur la distribution limite du terme maximum d'une serie aleatoire», Annals of Mathematics 44: 423-453, doi:10.2307/1968974 .
Gumbel, E.J. (1935), «Les valeurs extrêmes des distributions statistiques» (PDF), Annales de l'Institut Henri Poincaré 5 (2): 115-158, consultado el 1 de abril de 2009 .
Gumbel, Emil J. (2004) [1958], Statistics of Extremes, Mineola, NY: Dover, ISBN 0-486-43604-7 .
Makkonen, L. (2008), «Problems in the extreme value analysis», Structural Safety 30: 405-419, doi:10.1016/j.strusafe.2006.12.001 .
Leadbetter, M. R. (1991), «On a basis for 'Peaks over Threshold' modeling», Statistics & Probability Letters 12 (4): 357-362, doi:10.1016/0167-7152(91)90107-3 .
Leadbetter M.R., Lindgren G. and Rootzen H. (1982) Extremes and related properties of random sequences and processes. Springer-Verlag, New York.
Lindgren, G.; Rootzen, H. (1987), «Extreme values: Theory and technical applications», Scandinavian Journal of Statistics, Theory and Applications 14: 241-279 .
Novak S.Y. (2011) Extreme Value Methods with Applications to Finance. Chapman & Hall/CRC Press, London. ISBN 978-1-4398-3574-6
Pickands, J (1975), «Statistical inference using extreme order statistics», Annals of Statistics 3: 119-131 .

Enlaces externos[editar]

Datos: Q729429

[1] Leadbetter (1991)

[2] Fisher and Tippett (1928)

[3] Gnedenko (1943)

[4] Embrechts, Klüppelberg, and Mikosch (1997)

[5] Pickands (1975)

[6] Balkema and de Haan (1974)

[7] Alvardo (1998, p.68.)

[8] Makkonen (2008)

[9] J.H.J. Einmahl & S.G.W.R. Smeets (2009), «Ultimate 100m World Records Through Extreme-Value Theory», CentER Discussion Paper, Tilburg University 57, archivado desde el original el 12 de marzo de 2016, consultado el 12 de agosto de 2009 .

[10] D. Gembris, J.Taylor & D. Suter (2002), «Trends and random fluctuations in athletics», Nature 417: 506, doi:10.1038/417506a .

[11] D. Gembris, J.Taylor & D. Suter (2007), «Evolution of athletic records : Statistical effects versus real improvements», Journal of Applied Statistics 34 (5): 529-545, doi:10.1080/02664760701234850, consultado el 3 de enero de 2014 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]