Inferencia bayesiana

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

La inferencia bayesiana es un tipo de inferencia estadística en la que las evidencias u observaciones se emplean para actualizar o inferir la probabilidad de que una hipótesis pueda ser cierta. El nombre «bayesiana» proviene del uso frecuente que se hace del teorema de Bayes durante el proceso de inferencia. El teorema de Bayes se ha derivado del trabajo realizado por el reverendo Thomas Bayes. Hoy en día, uno de los campos de aplicación es en la teoría de la decisión,[1] visión artificial[2] (simulación de la percepción en general)[3] y reconocimiento de patrones por ordenador.

Contexto inicial[editar]

La incertidumbre y la imprecisión son connaturales en el proceso de razonamiento. La lógica establece unas reglas de inferencia a partir de las cuales se construye el sistema de razonamiento deductivo, en el que una proposición determinada es considerada como cierta o falsa, sin que se admitan grados entre estos dos extremos. Los métodos de razonamiento aproximado, entre los que se encuentran los métodos bayesianos, aportan modelos teóricos que simulan la capacidad de razonamiento en condiciones de incertidumbre, cuando no se conoce con absoluta certeza la verdad o falsedad de un enunciado o hipótesis, e imprecisión, enunciados en los que se admite un rango de variación.

Entre los métodos de razonamiento aproximado se encuentran los métodos bayesianos, basados en el conocido teorema de Bayes. Todos ellos tienen en común la asignación de una probabilidad como medida de credibilidad de las hipótesis. En este contexto, la inferencia se entiende como un proceso de actualización de las medidas de credibilidad al conocerse nuevas evidencias. Mediante la aplicación del Teorema de Bayes se busca obtener las probabilidades de las hipótesis condicionadas a las evidencias que se conocen. La diferencia entre los distintos métodos bayesianos, modelos causales y redes bayesianas, estriba en las hipótesis de independencia condicional entre hipótesis y evidencias. Dichas relaciones se expresan comúnmente mediante un grafo acíclico dirigido.

Evidencia y creencias cambiantes[editar]

La inferencia bayesiana utiliza aspectos del método científico, que implica recolectar evidencia que se considera consistente o inconsistente con una hipótesis dada. A medida que la evidencia se acumula, el grado de creencia en una hipótesis se va modificando. Con evidencia suficiente, a menudo podrá hacerse muy alto o muy bajo. Así, los que sostienen la inferencia bayesiana dicen que puede ser utilizada para discriminar entre hipótesis en conflicto: las hipótesis con un grado de creencia muy alto deben ser aceptadas como verdaderas y las que tienen un grado de creencia muy bajo deben ser rechazadas como falsas. Sin embargo, los detractores dicen que este método de inferencia puede estar afectado por un prejuicio debido a las creencias iniciales que se deben sostener antes de comenzar a recolectar cualquier evidencia.

¿Qué es lo atractivo de la Estadística Bayesiana?[editar]

i) Construcción axiomática
ii) Una sola regla de decisión
iii) La única que ofrece solución para ciertos problemas

Axiomas de coherencia[editar]

i) Comparación
ii) Transitividad
iii) Dominancia-Sustitución
iv) Referencia

Ejemplos de inferencia[editar]

Un ejemplo de inferencia bayesiana es el siguiente:

  • Durante miles de millones de años, el sol ha salido después de haberse puesto. El sol se ha puesto esta noche. Hay una probabilidad muy alta de (o 'Yo creo firmemente' o 'es verdad') que el sol va a volver a salir mañana. Existe una probabilidad muy baja de (o 'yo no creo de ningún modo' o 'es falso') que el sol no salga mañana.

La inferencia bayesiana usa un estimador numérico del grado de creencia en una hipótesis aún antes de observar la evidencia y calcula un estimador numérico del grado de creencia en la hipótesis después de haber observado la evidencia. La inferencia bayesiana generalmente se basa en grados de creencia, o probabilidades subjetivas, en el proceso de inducción y no necesariamente declara proveer un método objetivo de inducción.

Definiciones formales[editar]

A pesar de todo, algunos estadísticos bayesianos creen que las probabilidades pueden tener un valor objetivo y por lo tanto la inferencia bayesiana puede proveer un método objetivo de inducción. (Ver método científico.) Dada una nueva evidencia, el teorema de Bayes ajusta las probabilidades de la misma de la siguiente manera:

P(H_0|E) = \frac{P(E|H_0)\;P(H_0)}{P(E)}

donde

  • H_0 representa una hipótesis, llamada hipótesis nula, que ha sido inferida antes de que la nueva evidencia, E, resultara disponible.
  • P(H_0) se llama la probabilidad a priori de H_0.
  • P(E|H_0) se llama la probabilidad condicional de que se cumpla la evidencia E si la hipótesis H_0 es verdadera. Se llama también la función de verosimilitud cuando se expresa como una función de E dado H_0.
  • P(E) se llama la probabilidad marginal de E: la probabilidad de observar la nueva evidencia E bajo todas las hipótesis mutuamente excluyentes. Se la puede calcular como la suma del producto de todas las hipótesis mutuamente excluyentes por las correspondientes probabilidades condicionales: \sum  P(E|H_i)P(H_i).
  • P(H_0|E) se llama la probabilidad a posteriori de H_0 dado E.

El factor P(E|H_0) / P(E) representa el impacto que la evidencia tiene en la creencia en la hipótesis. Si es posible que se observe la evidencia cuando la hipótesis considerada es verdadera, entonces este factor va a ser grande. Multiplicando la probabilidad a priori de la hipótesis por este factor va a resultar en una gran probabilidad a posteriori dada la evidencia. En la inferencia bayesiana, por lo tanto, el teorema de Bayes mide cuánto la nueva evidencia es capaz de alterar la creencia en la hipótesis.

Establecimiento de la inferencia[editar]

Los estadísticos bayesianos sostienen que aun cuando distintas personas puedan proponer probabilidades a priori muy diferentes, la nueva evidencia que surge de nuevas observaciones va a lograr que las probabilidades subjetivas se aproximen cada vez más. Otros, sin embargo, sostienen que cuando distintas personas proponen probabilidades a priori muy diferentes, las probabilidades subjetivas a posteriori pueden no converger nunca, por más evidencias nuevas que se recolecten. Estos críticos consideran que visiones del mundo que son completamente diferentes al principio pueden seguir siendo completamente diferentes a través del tiempo por más evidencias que se acumulen.

Multiplicando la probabilidad anterior P(H_0) por el factor P(E|H_0) / P(E) nunca se podrá obtener una probabilidad superior a 1. Ya que P(E) es al menos mayor que P(E \cap H_0), lo que permite la igualdad P(E|H_0) \cdot P(H_0) (véase probabilidad conjunta), reemplazando P(E) con P(E \cap H_0) en el factor P(E|H_0) / P(E) esto dejará una probabilidad posterior de 1. Por lo tanto, la probabilidad posterior no llegará a ser mayor que uno sólo si P(E) fuese menor que P(E \cap H_0), lo que nunca es cierto.

La probabilidad de E dado H_0, P(E|H_0), puede ser representada como una función de su segundo argumento, lo que puede hacerse propocionando un valor. Tal función se denomina función de verosimilitud; es función de H_0 dado E. Una proporción de dos funciones de verosimilitudes que se denomina proporción de verosimilitud, \Lambda . Por ejemplo:

\Lambda = \frac{L(H_0|E)}{L(\mathrm{not}\,H_0|E)} = \frac{P(E|H_0)}{P(E|\mathrm{not}\,H_0)}

La probabilidad marginal P(E), puede ser representada además como la suma de los productos de todas las probabilidades de las hipótesis exclusivas mútuamente y que corresponden a probabildades condicionales: P(E|H_0)P(H_0)+ P(E|\mathrm{not}\,H_0)P(\mathrm{not}\,H_0) .

Como resultado, se puede reescribir el teorema de Bayes como:

P(H_0|E) = \frac{P(E|H_0)P(H_0)}{P(E|H_0)P(H_0)+ P(E|\mathrm{not}\,H_0)P(\mathrm{not}\,H_0)} = \frac{\Lambda P(H_0)}{\Lambda P(H_0) +P(\mathrm{not}\,H_0)}

Con dos evidencias independientes E_1 y E_2, la inferencia bayesiana se puede aplicar iterativamente. Se puede emplear la primera evidencia para calcular la primera probabilidad posterior y emeplear ésta en el cálculo de la siguiente probabilidad y continuar de esta forma con las demás.

La independencia de evidencias implica que:

P(E_1, E_2 | H_0) = P(E_1 | H_0) \times P(E_2 | H_0)
P(E_1, E_2) = P(E_1) \times P(E_2)
P(E_1,E_2|\mathrm{not}\,H_0) = P(E_1|\mathrm{not}\,H_0) \times P(E_2|\mathrm{not}\,H_0)

Aplicando el teorema de Bayes de forma iterativa, implica

P(H_0|E_1, E_2) = \frac{P(E_1|H_0)\times P(E_2|H_0)\;P(H_0)}{P(E_1)\times P(E_2)}

Empleando los ratios de verosimilitud, se puede encontrar que

P(H_0|E_1, E_2) = \frac{\Lambda_1 \Lambda_2 P(H_0)}{[\Lambda_1 P(H_0) + P(\mathrm{not}\,H_0)] [\Lambda_2 P(H_0) + P(\mathrm{not}\,H_0)]} ,

Esta iteración de la inferencia bayesiana puede ser expandida con la inclusión de más evidencias. La inferencia bayesiana se emplea en el cálculo de probabilidades en la toma de decisión. Se emplean en las probabilidades calculadas en la teoría de cálculo de riesgos, en la denominada función de pérdida que refleja las consecuencias de cometer un error.

Véase también[editar]

Referencias[editar]

  1. "Statistical Decision Theory and Bayesian Analysis", James O. Berger; 1985 ;Springer
  2. "Bayesian Approach to Image Interpretation", Sunil K. Kopparapu, Uday B. Desai; 2001 Springer
  3. "Perception as Bayesian Inference", David C. Knill, Whitman Richards;1996 ;Cambridge University Press

Bibliografía[editar]

  • Berger, J.O. (1999) Statistical Decision Theory and Bayesian Analysis. Second Edition. Springer Verlag, New York. ISBN 0-387-96098-8 and also ISBN 3-540-96098-8.
  • Bolstad, William M. (2004) Introduction to Bayesian Statistics, John Wiley ISBN 0-471-27020-2
  • Bretthorst, G. Larry, 1988, Bayesian Spectrum Analysis and Parameter Estimation in Lecture Notes in Statistics, 48, Springer-Verlag, New York, New York
  • Dawid, A.P. and Mortera, J. (1996) Coherent analysis of forensic identification evidence. Journal of the Royal Statistical Society, Series B, 58,425-443.
  • Foreman, L.A; Smith, A.F.M. and Evett, I.W. (1997). Bayesian analysis of deoxyribonucleic acid profiling data in forensic identification applications (with discussion). Journal of the Royal Statistical Society, Series A, 160, 429-469.
  • Gardner-Medwin, A. What probability should the jury address?. Significance. Volume 2, Issue 1, March 2005
  • Gelman, A., Carlin, B., Stern, H., and Rubin, D.B. (2003). Bayesian Data Analysis. Second Edition. Chapman & Hall/CRD, Boca Raton, Florida. ISBN 1-58488-388-X.
  • Gelman, A. and Meng, X.L. (2004). Applied Bayesian Modeling and Causal Inference from Incomplete-Data Perspectives: an essential journey with Donald Rubin's statistical family. John Wiley & Sons, Chichester, UK. ISBN 0-470-09043-X
  • Giffin, A. and Caticha, A. (2007) Updating Probabilities with Data and Moments
  • Jaynes, E.T. (1998) Probability Theory: The Logic of Science.
  • Lee, Peter M. Bayesian Statistics: An Introduction. Second Edition. (1997). ISBN 0-340-67785-6.
  • O'Hagan, A. and Forster, J. (2003) Kendall's Advanced Theory of Statistics, Volume 2B: Bayesian Inference. Arnold, New York. ISBN 0-340-52922-9.
  • Pearl, J. (1988) Probabilistic Reasoning in Intelligent Systems, San Mateo, CA: Morgan Kaufmann.
  • Robert, C.P. (2001) The Bayesian Choice. Springer Verlag, New York.
  • Robertson, B. and Vignaux, G.A. (1995) Interpreting Evidence: Evaluating Forensic Science in the Courtroom. John Wiley and Sons. Chichester.
  • Winkler, Robert L, Introduction to Bayesian Inference and Decision, 2nd Edition (2003) Probabilistic. ISBN 0-9647938-4-9

Referencias externas[editar]