Estadística direccional

De Wikipedia, la enciclopedia libre
La forma general de una proteína se puede parametrizar como una secuencia de puntos en la esfera unidad. Se muestran dos vistas del histograma esférico de dichos puntos para una gran colección de estructuras de proteínas. El tratamiento estadístico de dichos datos pertenece al ámbito de las estadísticas direccionales[1]

La estadística direccional (también estadística circular o estadística esférica) es la subdisciplina de la estadística que se ocupa de las direcciones (los vectores unitarios en el espacio euclídeo, Rn ), ejes (rectas desde el origen en Rn) o al movimiento de rotación en Rn. De manera más general, las estadísticas direccionales se ocupan de observaciones sobre variedades de Riemann compactas, incluida la variedad de Stiefel.

El hecho de que 0 grados y 360 grados sean ángulos idénticos, de modo que, por ejemplo, 180 grados no sea una media coherente para 2 grados y 358 grados, ilustra que se requieren métodos estadísticos especiales para el análisis de algunos tipos de datos (en este caso caso, datos angulares). Otros ejemplos de datos que pueden considerarse direccionales incluyen estadísticas que involucran períodos temporales (por ejemplo, horas del día, semanas, meses o años), direcciones de la brújula, ángulos diedros en moléculas, orientaciones o rotaciones entre otros.

Distribuciones circulares[editar]

Cualquier función de densidad de probabilidad (FDP) en la recta real puede ser "envuelta" alrededor de la circunferencia de un círculo de radio unitario.[2]​ Es decir, la FDP de la variable envuelta

es

Este concepto se puede extender al contexto multivariado mediante una extensión de la suma simple a una cantidad de sumas que cubren todas las dimensiones en el espacio de características:

donde Error al representar (SVG (MathML puede ser habilitado mediante un plugin de navegador): respuesta no válida («Math extension cannot connect to Restbase.») del servidor «http://localhost:6011/es.wikipedia.org/v1/»:): {\displaystyle \mathbf{e}_k= (0, \dots, 0, 1, 0, \dots, 0)^{\mathsf{T}}} es el -ésimo vector de una base euclídea.

Las siguientes secciones muestran algunas distribuciones circulares relevantes.

Distribución circular de von Mises[editar]

La distribución de von Mises es una distribución circular que, como cualquier otra distribución circular, puede considerarse como una envoltura de una determinada distribución de probabilidad lineal alrededor de una circunferencia. La distribución de probabilidad lineal subyacente para la distribución de von Mises es matemáticamente intratable; sin embargo, para fines estadísticos, no es necesario abordar la distribución lineal subyacente. La utilidad de la distribución de von Mises es doble: es la más manejable matemáticamente de todas las distribuciones circulares, lo que permite un análisis estadístico más simple, y es una aproximación cercana a la distribución normal envuelta, que, de manera análoga a la distribución normal lineal, es importante porque es el caso límite para la suma de un gran número de pequeñas desviaciones angulares. De hecho, la distribución de von Mises a menudo se conoce como distribución "normal circular" debido a su facilidad de uso y a su estrecha relación con la distribución normal envuelta (Fisher, 1993).

La FDP de la distribución de von Mises es:

donde es la función de Bessel modificada de orden 0.

Distribución uniforme circular[editar]

La función de densidad de probabilidad (FDP) de la distribución circular uniforme viene dada por

También se puede considerar como de la distribución de von Mises vista anteriormente.

Distribución normal envuelta[editar]

La FDP de la distribución normal envuelta (NE) es:

donde μ y σ son la media y la desviación estándar de la distribución no envuelta, respectivamente y es la función theta de Jacobi:

donde y

Distribución de Cauchy envuelta[editar]

El pdf de la distribución de Cauchy envuelta (CE) es:

donde es el factor de escala y es la posición máxima.

Distribución de Lévy envuelta[editar]

La FDP de la distribución de Lévy envuelta (LE) es:

donde el valor del sumando se toma como cero cuando , es el factor de escala y es el parámetro de ubicación.

Distribución normal proyectada[editar]

La distribución normal proyectada es una distribución circular que representa la dirección de una variable aleatoria con distribución normal multivariada, obtenida por proyección radial de la variable sobre la esfera unitaria (n-1). Debido a esto, y a diferencia de otras distribuciones circulares comúnmente utilizadas, no es simétrica ni unimodal.

Distribuciones en variedades de dimensiones superiores[editar]

Tres conjuntos de puntos tomados de diferentes distribuciones de Kent en la esfera

También existen distribuciones en la esfera (como la distribución de Kent),[3]​ en la esfera N-dimensional (como la distribución de von Mises-Fisher),[4]​ o en un toro (como la distribución bivariada de von Mises).[5]

La matriz de distribución de von Mises-Fisher[6]​ es una distribución sobre una variedad de Stiefel, y se puede utilizar para construir distribuciones de probabilidad sobre matrices de rotación.[7]

La distribución de Bingham es una distribución sobre ejes en N dimensiones, o de manera equivalente, sobre puntos en la esfera (N − 1)-dimensional con las antípodas identificadas.[8]​ Por ejemplo, si N = 2, los ejes son rectas no dirigidas que pasan por el origen en el plano. En este caso, cada eje corta el círculo unitario en el plano (que es la esfera unidimensional) en dos puntos que son antípodas entre sí. Para N=4, la distribución de Bingham es una distribución en el espacio del cuaternión unidad (versores). Dado que un versor corresponde a una matriz de rotación, la distribución de Bingham para N=4 se puede utilizar para construir distribuciones de probabilidad en el espacio de las rotaciones, al igual que la distribución de la matriz de von Mises-Fisher.

Estas distribuciones se utilizan, por ejemplo, en geología,[9]​ en cristalografía[10]​ y en bioinformática.[1][11][12]

Momentos[editar]

Los momentos vectoriales sin procesar (o trigonométricos) de una distribución circular se definen como

donde es cualquier intervalo de longitud , es la FDP de la distribución circular y . Dado que la integral es la unidad y el intervalo de integración es finito, se deduce que los momentos de cualquier distribución circular son siempre finitos y están bien definidos.

Los momentos muestrales se definen de manera análoga como:

El vector resultante de la población, la longitud y el ángulo medio se definen en analogía con los parámetros de muestra correspondientes:

Además, las longitudes de los momentos superiores se definen como:

mientras que las partes angulares de los momentos superiores son solo . Las longitudes de todos los momentos estarán entre 0 y 1.

Medidas de localización y difusión[editar]

Se pueden definir varias medidas de tendencia central y de dispersión tanto para la población como para una muestra extraída de esa población.[13]

Tendencia central[editar]

La medida de ubicación más común es la media circular. La media circular poblacional es simplemente el primer momento de la distribución, mientras que la media muestral es el primer momento de la muestra. La media muestral servirá como estimador insesgado de la media poblacional.

Cuando los datos están concentrados, la mediana y la moda pueden definirse por analogía con el caso lineal, pero para datos más dispersos o multimodales, estos conceptos no son útiles.

Dispersión[editar]

Las medidas más comunes de propagación circular son:

  • Varianza circular: Para una muestra dada, la varianza circular se define como:
y para la población : Ambas tendrán valores entre 0 y 1.
  • Desviación estándar circular:
 : con valores entre 0 e infinito.

Esta definición de la desviación estándar circular (en lugar de la raíz cuadrada de la varianza) es útil porque, para una distribución normal ajustada, es un estimador de la desviación estándar de la distribución normal subyacente. Por tanto, permitirá estandarizar la distribución circular como en el caso lineal, para valores pequeños de la desviación estándar. Esto también se aplica a la distribución de von Mises, que se aproxima mucho a la distribución normal envuelta. Téngase en cuenta que para pequeño, se tiene que .

  • El Dispersión circular:
 : con valores entre 0 e infinito.

Esta medida de dispersión resulta útil en el análisis estadístico de la varianza.

Distribución de la media[editar]

Dado un conjunto de N medidas , el valor medio de z se define como:

que puede expresarse como:

donde

o, alternativamente como:

donde

La distribución del ángulo medio () para una FDP circular P(θ) vendrá dada por:

donde está sobre cualquier intervalo de longitud y la integral está sujeta a la restricción de que y sean constantes o, alternativamente, que y sean constantes.

El cálculo de la distribución de la media para la mayoría de las distribuciones circulares no es analíticamente posible, y para realizar un análisis de varianza se necesitan aproximaciones numéricas o matemáticas.[14]

El teorema del límite central se puede aplicar a la distribución de las medias muestrales. (artículo principal: Teorema del límite central para estadísticas direccionales). Se puede demostrar[14]​ que la distribución de se aproxima a la distribución normal multivariada en el límite de un tamaño de muestra grande.

Pruebas de bondad de ajuste y significancia[editar]

Para datos cíclicos (por ejemplo, si están distribuidos uniformemente):

Véase también[editar]

Referencias[editar]

  1. a b Hamelryck, Thomas; Kent, John T.; Krogh, Anders (2006). «Hamelryck, T., Kent, J., Krogh, A. (2006) Sampling realistic protein conformations using local structural bias. PLoS Comput. Biol., 2(9): e131». PLOS Computational Biology 2 (9): e131. Bibcode:2006PLSCB...2..131H. PMC 1570370. PMID 17002495. doi:10.1371/journal.pcbi.0020131. 
  2. Bahlmann, C., (2006), Directional features in online handwriting recognition, Pattern Recognition, 39
  3. Kent, J (1982) The Fisher-Bingham distribution on the sphere. J Royal Stat Soc, 44, 71-80.
  4. Fisher, RA (1953) Dispersion on a sphere. Proc. Roy. Soc. London Ser. A., 217, 295-305
  5. Mardia, KM. Taylor; CC; Subramaniam, GK. (2007). «Protein Bioinformatics and Mixtures of Bivariate von Mises Distributions for Angular Data». Biometrics 63 (2): 505-512. PMID 17688502. S2CID 14293602. doi:10.1111/j.1541-0420.2006.00682.x. 
  6. Pal, Subhadip; Sengupta, Subhajit; Mitra, Riten; Banerjee, Arunava (September 2020). «Conjugate Priors and Posterior Inference for the Matrix Langevin Distribution on the Stiefel Manifold». Bayesian Analysis 15 (3): 871-908. ISSN 1936-0975. S2CID 209974627. doi:10.1214/19-BA1176. 
  7. Downs (1972). «Orientational statistics». Biometrika 59 (3): 665-676. doi:10.1093/biomet/59.3.665. 
  8. Bingham, C. (1974). «An Antipodally Symmetric Distribution on the Sphere». Ann. Stat. 2 (6): 1201-1225. doi:10.1214/aos/1176342874. 
  9. Peel, D.; Whiten, WJ.; McLachlan, GJ. (2001). «Fitting mixtures of Kent distributions to aid in joint set identification». J. Am. Stat. Assoc. 96 (453): 56-63. S2CID 11667311. doi:10.1198/016214501750332974. 
  10. Krieger Lassen, N. C.; Juul Jensen, D.; Conradsen, K. (1994). «On the statistical analysis of orientation data». Acta Crystallogr. A50 (6): 741-748. doi:10.1107/S010876739400437X. 
  11. Kent, J.T., Hamelryck, T. (2005). Using the Fisher-Bingham distribution in stochastic models for protein structure. In S. Barber, P.D. Baxter, K.V.Mardia, & R.E. Walls (Eds.), Quantitative Biology, Shape Analysis, and Wavelets, pp. 57-60. Leeds, Leeds University Press
  12. Boomsma, Wouter; Mardia, Kanti V.; Taylor, Charles C.; Ferkinghoff-Borg, Jesper; Krogh, Anders; Hamelryck, Thomas (2008). «A generative, probabilistic model of local protein structure». Proceedings of the National Academy of Sciences 105 (26): 8932-8937. Bibcode:2008PNAS..105.8932B. PMC 2440424. PMID 18579771. doi:10.1073/pnas.0801715105. 
  13. Fisher, NI., Statistical Analysis of Circular Data, Cambridge University Press, 1993. ISBN 0-521-35018-2
  14. a b Jammalamadaka, S. Rao; Sengupta, A. (2001). Topics in circular statistics. New Jersey: World Scientific. ISBN 978-981-02-3778-3. Consultado el 15 de mayo de 2011. 

Lecturas adicionales[editar]