Regresión de Poisson

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

En estadística, la regresión de Poisson es un tipo de modelo lineal generalizado en el que la variable de respuesta tiene una distribución de Poisson y el logaritmo de su valor esperado puede ser modelado por una combinación lineal de parámetros desconocidos, es decir, el logaritmo es la función de enlace canónica. Se usa para modelar datos de conteo (número de veces que ocurre cierto fenóneno aleatorio) y tablas de contingencia.

Formulación matemática[editar]

La regresión de Poisson se utiliza para modelar fenómenos que pueden representarse mediante una variable aleatoria Y tal que para un valor x \in \mathbb{R}^n de unas variables independientes,

Y_{|x} ~ \sim \mathrm{Poisson}( \exp( a' x + b ) )\,,

es decir, el valor de Y condicionado a x sigue una distribución de Poisson de parámetro \exp( a' x + b ) para ciertos valores a \in \mathbb{R}^n y b \in \mathbb{R}.

En concreto, debido a las propiedades de la distribución de Poisson, el valor de la media predicha es

\log (\operatorname{E}(Y|x))=a' x + b\,.

A veces, por abreviar, se escribe simplemente

Y_{|x} ~ \sim \mathrm{Poisson}( \exp( \theta' x ) )\,,

donde x es un vector n+1-dimensional que consta de n variables independientes y una constante, usualmente 1. En este caso concreto, θ es simplemente a concatenado a b.

Si Yi son observaciones independientes de la variable aleatoria Y , la estimación de θ suele realizarse utilizando el método de la máxima verosimilitud. Este estimador no admite una forma cerrada y debe calcularse mediante métodos numéricos. Como la superficie de probabilidad para este tipo de modelos es siempre convexa, el método de Newton u otros métodos basados en el gradiente son adecuados.[cita requerida] No obstante, los paquetes estadísticos habituales son capaces de realizar automáticamente el ajuste de este tipo de modelos.

Aplicaciones[editar]

El modelo de Poisson es apropiado cuando la variable dependiente es un conteo, como por ejemplo, el número de llamadas que llegan a una central telefónica, que dependen de otras variables como, por ejemplo el día de la semana o la hora del día. Los sucesos tienen que ser independientes.


Al aplicar este tipo de modelos a datos reales, en algunos casos, se dan fenómenos tales como:

  • Sobredispersión: Una peculiaridad de la distribución de Poisson es que su media es igual a su varianza. Sin embargo, en ciertos conjuntos de datos se observa una varianza superior a la esperada. El fenómeno se conoce como sobredispersión e indica que el modelo no es adecuado. Un motivo frecuente es la omisión de alguna variable relevante. En algunos casos se aconseja recurrir a la distribución binomial negativa.[1] [2]
  • Exceso de ceros: Otro fenómeno que aparece en la práctica es el del exceso de ceros. Puede deberse a que existen dos fenómenos estadísticos que se entrecruzan: uno genera ceros; otro, los valores no nulos. Esto ocurre, por ejemplo, al tratar de modelar el número de cigarrillos fumados por cada uno de los integrantes de un grupo de personas: puede que algunos de ellos, simplemente, no sean fumadores.

Implementaciones[editar]

Implementaciones de este modelo existen en paquetes estadísticos tales como:

  • SPSS, usando el comando GENLIN
  • Matlab Statistics Toolbox: funciones "glmfit" y "glmval".[3]
  • Microsoft Excel: a través de extensiones tales como XPost
  • SAS: función GENMOD
  • Stata: procedimiento "poisson"
  • R: la función glm()

Ejemplo de ajuste de un modelo de Poisson con R[editar]

El siguiente código muestra cómo ajustar mediante un modelo de regresión de Poisson un conjunto de datos recopilados por Dobson.[4] [5]

     # Construcción de los datos
     counts <- c(18,17,15,20,10,20,25,13,12)
     outcome <- gl(3,1,9)
     treatment <- gl(3,3)
 
     # Ajuste del modelo
     glm.D93 <- glm(counts ~ outcome + treatment, family=poisson())
 
     # Resumen del modelo
     anova(glm.D93)
     summary(glm.D93)

Bibliografía[editar]

  • Cameron, A.C. and P.K. Trivedi (1998). Regression analysis of count data, Cambridge University Press. ISBN 0-521-63201-3
  • Christensen, Ronald (1997). Log-linear models and logistic regression. Springer Texts in Statistics (Second edición). New York: Springer-Verlag. pp. xvi+483. ISBN 0-387-98247-7. MR 1633357. 
  • Hilbe, J.M. (2007). Negative Binomial Regression, Cambridge University Press. ISBN 978-0-521-85772-7

Referencias[editar]

  1. Paternoster R, Brame R (1997). «Multiple routes to delinquency? A test of developmental and general theories of crime». Criminology 35:  pp. 45–84. 
  2. Berk R, MacDonald J (2008). «Overdispersion and Poisson regression». Journal of Quantitative Criminology 24:  pp. 269–284. http://www.crim.upenn.edu/faculty/papers/berk/regression.pdf. 
  3. gmlfit
  4. Dobson, A. J. (1990) An Introduction to Generalized Linear Models London: Chapman and Hall.
  5. Fitting Generalized Linear Models, página de ayuda de la función glm() de R