Inferencia bayesiana

La inferencia bayesiana es un tipo de inferencia estadística en la que las evidencias u observaciones se emplean para actualizar o inferir la probabilidad de que una hipótesis pueda ser cierta. El nombre «bayesiana» proviene del uso frecuente que se hace del teorema de Bayes durante el proceso de inferencia. El teorema de Bayes se ha derivado del trabajo realizado por el matemático Thomas Bayes. Hoy en día, uno de los campos de aplicación es en la teoría de la decisión,^[1] visión artificial^[2] (simulación de la percepción en general)^[3] y reconocimiento de patrones por ordenador.

Contexto inicial

La incertidumbre y la imprecisión son connaturales en el proceso de razonamiento. La lógica establece unas reglas de inferencia a partir de las cuales se construye el sistema de razonamiento deductivo, en el que una proposición determinada es considerada como cierta o falsa, es decir un sistema de dos únicos estados posibles, sin que se admitan grados entre estos dos extremos. Los métodos de razonamiento aproximado, entre los que se encuentran los métodos bayesianos, aportan modelos teóricos que simulan la capacidad de razonamiento en condiciones de incertidumbre, cuando no se conoce con absoluta certeza la verdad o falsedad de un enunciado o hipótesis, e imprecisión, enunciados en los que se admite un rango de variación.

Entre los métodos de razonamiento aproximado se encuentran los métodos bayesianos, basados en el conocido teorema de Bayes. Todos ellos tienen en común la asignación de una probabilidad como medida de credibilidad de las hipótesis. En este contexto, la inferencia se entiende como un proceso de actualización de las medidas de credibilidad al conocerse nuevas evidencias. Mediante la aplicación del Teorema de Bayes se busca obtener las probabilidades de las hipótesis condicionadas a las evidencias que se conocen. La diferencia entre los distintos métodos bayesianos, modelos causales y redes bayesianas, estriba en las hipótesis de independencia condicional entre hipótesis y evidencias. Dichas relaciones se expresan comúnmente mediante un grafo acíclico dirigido.

Evidencia y creencias cambiantes

La inferencia bayesiana utiliza aspectos del método científico, que implica recolectar evidencia que se considera consistente o inconsistente con una hipótesis dada. A medida que la evidencia se acumula, el grado de creencia en una hipótesis se va modificando. Con evidencia suficiente, a menudo podrá hacerse muy alto o muy bajo. Así, los que sostienen la inferencia bayesiana dicen que puede ser utilizada para discriminar entre hipótesis en conflicto: las hipótesis con un grado de creencia muy alto deben ser aceptadas como verdaderas y las que tienen un grado de creencia muy bajo deben ser rechazadas como falsas. Sin embargo, los detractores dicen que este método de inferencia puede estar afectado por un sesgo debido a las creencias iniciales que se deben sostener antes de comenzar a recolectar cualquier evidencia.

Ejemplos de inferencia

Un ejemplo de inferencia bayesiana es el siguiente:

Durante miles de millones de años, el sol ha salido después de haberse puesto. El sol se ha puesto esta noche. Hay una probabilidad muy alta de (o 'Yo creo firmemente' o 'es verdad') que el sol va a volver a salir mañana. Existe una probabilidad muy baja de (o 'yo no creo de ningún modo' o 'es falso') que el sol no salga mañana.

La inferencia bayesiana usa un estimador numérico del grado de creencia en una hipótesis aún antes de observar la evidencia y calcula un estimador numérico del grado de creencia en la hipótesis después de haber observado la evidencia. La inferencia bayesiana generalmente se basa en grados de creencia, o probabilidades subjetivas, en el proceso de inducción y no necesariamente declara proveer un método objetivo de inducción.

Definiciones formales

A pesar de todo, algunos estadísticos bayesianos creen que las probabilidades pueden tener un valor objetivo y por lo tanto la inferencia bayesiana puede proveer un método objetivo de inducción. (Ver método científico.) Dada una nueva evidencia, el teorema de Bayes ajusta las probabilidades de la misma de la siguiente manera:

P(H_{0}|E)={\frac {P(E|H_{0})\;P(H_{0})}{P(E)}}

donde

$H_{0}$ representa una hipótesis, llamada hipótesis nula, que ha sido inferida antes de que la nueva evidencia, $E$ , resultara disponible.
$P(H_{0})$ se llama la probabilidad a priori de $H_{0}$ .
$P(E|H_{0})$ se llama la probabilidad condicional de que se cumpla la evidencia $E$ si la hipótesis $H_{0}$ es verdadera. Se llama también la función de verosimilitud cuando se expresa como una función de $E$ dado $H_{0}$ .
$P(E)$ se llama la probabilidad marginal de $E$ : la probabilidad de observar la nueva evidencia $E$ bajo todas las hipótesis mutuamente excluyentes. Se la puede calcular como la suma del producto de todas las hipótesis mutuamente excluyentes por las correspondientes probabilidades condicionales: $\sum P(E|H_{i})P(H_{i})$ .
$P(H_{0}|E)$ se llama la probabilidad a posteriori de $H_{0}$ dado $E$ .

El factor $P(E|H_{0})/P(E)$ representa el impacto que la evidencia tiene en la creencia en la hipótesis. Si es posible que se observe la evidencia cuando la hipótesis considerada es verdadera, entonces este factor va a ser grande. Multiplicando la probabilidad a priori de la hipótesis por este factor va a resultar en una gran probabilidad a posteriori dada la evidencia. En la inferencia bayesiana, por lo tanto, el teorema de Bayes mide cuánto la nueva evidencia es capaz de alterar la creencia en la hipótesis.

Para diferentes valores de ${\textstyle H}$ , sólo los factores ${\textstyle P(H)}$ y ${\textstyle P(E\mid H)}$ , ambos en el numerador, afectan al valor de ${\textstyle P(H\mid E)}$ - la probabilidad posterior de una hipótesis es proporcional a su probabilidad previa (su probabilidad inherente) y la probabilidad recién adquirida (su compatibilidad con la nueva evidencia observada). La regla de Bayes puede establecerse de la siguiente manera: ${\begin{aligned}P(H\mid E)&={\frac {P(E\mid H)P(H)}{P(E)}}\\\\&={\frac {P(E\mid H)P(H)}{P(E\mid H)P(H)+P(E\mid \neg H)P(\neg H)}}\\\\&={\frac {1}{1+\left({\frac {1}{P(H)}}-1\right){\frac {P(E\mid \neg H)}{P(E\mid H)}}}}\\\end{aligned}}$ porque $P(E)=P(E\mid H)P(H)+P(E\mid \neg H)P(\neg H)$ y $P(H)+P(\neg H)=1$ donde $\neg H$ "no es ${\textstyle H}$ ", la negación lógica de ${\textstyle H}$ .

Una forma rápida y sencilla de recordar la ecuación sería utilizar la Regla de multiplicación: $P(E\cap H)=P(E\mid H)P(H)=P(H\mid E)P(E)$

Alternativas a la actualización bayesiana

La actualización bayesiana es ampliamente utilizada y computacionalmente conveniente. Sin embargo, no es la única regla de actualización que podría considerarse racional.

Ian Hacking observó que los argumentos tradicionales del libro "Argumento de la succión financiera" no especificaban la actualización bayesiana: dejaban abierta la posibilidad de que reglas de actualización no bayesianas pudieran evitar los libros holandeses. Hacking escribió^[4] "Y ni el argumento del libro holandés ni ningún otro en el arsenal personalista de pruebas de los axiomas de probabilidad implica el supuesto dinámico. Ninguna implica el bayesianismo. Así que el personalista requiere que el supuesto dinámico sea bayesiano. Es cierto que, en coherencia, un personalista podría abandonar el modelo bayesiano de aprendizaje a partir de la experiencia. La sal podría perder su sabor".

De hecho, hay reglas de actualización no bayesianas que también evitan los libros holandeses (como se discute en la literatura sobre "cinemática de la probabilidad") tras la publicación de la regla de Richard C. Jeffrey, que aplica la regla de Bayes al caso en que a la propia evidencia se le asigna una probabilidad.^[5] Se ha considerado que las hipótesis adicionales necesarias para requerir de forma única la actualización bayesiana son sustanciales, complicadas e insatisfactorias.^[6]

Establecimiento de la inferencia

Los estadísticos bayesianos sostienen que aun cuando distintas personas puedan proponer probabilidades a priori muy diferentes, la nueva evidencia que surge de nuevas observaciones va a lograr que las probabilidades subjetivas se aproximen cada vez más. Otros, sin embargo, sostienen que cuando distintas personas proponen probabilidades a priori muy diferentes, las probabilidades subjetivas a posteriori pueden no converger nunca, por más evidencias nuevas que se recolecten. Estos críticos consideran que visiones del mundo que son completamente diferentes al principio pueden seguir siendo completamente diferentes a través del tiempo por más evidencias que se acumulen.

Multiplicando la probabilidad anterior $P(H_{0})$ por el factor $P(E|H_{0})/P(E)$ nunca se podrá obtener una probabilidad superior a 1. Ya que $P(E)$ es al menos mayor que $P(E\cap H_{0})$ , lo que permite la igualdad $P(E|H_{0})\cdot P(H_{0})$ (véase probabilidad conjunta), reemplazando $P(E)$ con $P(E\cap H_{0})$ en el factor $P(E|H_{0})/P(E)$ esto dejará una probabilidad posterior de 1. Por lo tanto, la probabilidad posterior no llegará a ser mayor que uno sólo si $P(E)$ fuese menor que $P(E\cap H_{0}),$ lo que nunca es cierto.

La probabilidad de $E$ dado $H_{0}$ , $P(E|H_{0})$ , puede ser representada como una función de su segundo argumento, lo que puede hacerse propocionando un valor. Tal función se denomina función de verosimilitud; es función de $H_{0}$ dado $E$ . Una proporción de dos funciones de verosimilitudes que se denomina proporción de verosimilitud, $\Lambda$ . Por ejemplo:

\Lambda ={\frac {L(H_{0}|E)}{L(\mathrm {not} \,H_{0}|E)}}={\frac {P(E|H_{0})}{P(E|\mathrm {not} \,H_{0})}}

La probabilidad marginal $P(E)$ , puede ser representada además como la suma de los productos de todas las probabilidades de las hipótesis exclusivas mutuamente y que corresponden a probabilidades condicionales: $P(E|H_{0})P(H_{0})+P(E|\mathrm {not} \,H_{0})P(\mathrm {not} \,H_{0})$ .

Como resultado, se puede reescribir el teorema de Bayes como:

P(H_{0}|E)={\frac {P(E|H_{0})P(H_{0})}{P(E|H_{0})P(H_{0})+P(E|\mathrm {not} \,H_{0})P(\mathrm {not} \,H_{0})}}={\frac {\Lambda P(H_{0})}{\Lambda P(H_{0})+P(\mathrm {not} \,H_{0})}}

Con dos evidencias independientes $E_{1}$ y $E_{2}$ , la inferencia bayesiana se puede aplicar iterativamente. Se puede emplear la primera evidencia para calcular la primera probabilidad posterior y emplear esta en el cálculo de la siguiente probabilidad y continuar de esta forma con las demás.

La independencia de evidencias implica que:

P(E_{1},E_{2}|H_{0})=P(E_{1}|H_{0})\times P(E_{2}|H_{0})

P(E_{1},E_{2})=P(E_{1})\times P(E_{2})

P(E_{1},E_{2}|\mathrm {not} \,H_{0})=P(E_{1}|\mathrm {not} \,H_{0})\times P(E_{2}|\mathrm {not} \,H_{0})

Aplicando el teorema de Bayes de forma iterativa, implica

P(H_{0}|E_{1},E_{2})={\frac {P(E_{1}|H_{0})\times P(E_{2}|H_{0})\;P(H_{0})}{P(E_{1})\times P(E_{2})}}

Empleando los ratios de verosimilitud, se puede encontrar que

P(H_{0}|E_{1},E_{2})={\frac {\Lambda _{1}\Lambda _{2}P(H_{0})}{[\Lambda _{1}P(H_{0})+P(\mathrm {not} \,H_{0})][\Lambda _{2}P(H_{0})+P(\mathrm {not} \,H_{0})]}}

,

Esta iteración de la inferencia bayesiana puede ser expandida con la inclusión de más evidencias. La inferencia bayesiana se emplea en el cálculo de probabilidades en la toma de decisión. Se emplean en las probabilidades calculadas en la teoría de cálculo de riesgos, en la denominada función de pérdida que refleja las consecuencias de cometer un error.

Véase también

Teorema de Bayes - Fundamento de la inferencia
Inferencia bayesiana en filogenias
Razonamiento abductivo
Epistemología bayesiana
Análisis de sensibilidad (estadística)
Optimización de hiperparámetros

Referencias

↑ "Statistical Decision Theory and Bayesian Analysis", James O. Berger; 1985 ;Springer
↑ "Bayesian Approach to Image Interpretation", Sunil K. Kopparapu, Uday B. Desai; 2001 Springer
↑ "Perception as Bayesian Inference", David C. Knill, Whitman Richards;1996 ;Cambridge University Press
↑ Hacking, Ian (December 1967). «Slightly More Realistic Personal Probability». Philosophy of Science 34 (4): 316. S2CID 14344339. doi:10.1086/288169.
↑ edu/entries/bayes-theorem/ «Teorema de Bayes (Stanford Encyclopedia of Philosophy)». Plato.stanford.edu. Consultado el 5 de enero de 2014.
↑ van Fraassen, B. (1989) Laws and Symmetry, Oxford University Press. ISBN 0-19-824860-1

Bibliografía

Berger, J.O. (1999) Statistical Decision Theory and Bayesian Analysis. Second Edition. Springer Verlag, New York. ISBN 0-387-96098-8 and also ISBN 3-540-96098-8.
Bolstad, William M. (2004) Introduction to Bayesian Statistics, John Wiley ISBN 0-471-27020-2
Bretthorst, G. Larry, 1988, Bayesian Spectrum Analysis and Parameter Estimation in Lecture Notes in Statistics, 48, Springer-Verlag, New York, New York
Dawid, A.P. and Mortera, J. (1996) Coherent analysis of forensic identification evidence. Journal of the Royal Statistical Society, Series B, 58,425-443.
Foreman, L.A; Smith, A.F.M. and Evett, I.W. (1997). Bayesian analysis of deoxyribonucleic acid profiling data in forensic identification applications (with discussion). Journal of the Royal Statistical Society, Series A, 160, 429-469.
Gardner-Medwin, A. What probability should the jury address?. Significance. Volume 2, Issue 1, March 2005
Gelman, A., Carlin, B., Stern, H., and Rubin, D.B. (2003). Bayesian Data Analysis. Second Edition. Chapman & Hall/CRD, Boca Raton, Florida. ISBN 1-58488-388-X.
Gelman, A. and Meng, X.L. (2004). Applied Bayesian Modeling and Causal Inference from Incomplete-Data Perspectives: an essential journey with Donald Rubin's statistical family. John Wiley & Sons, Chichester, UK. ISBN 0-470-09043-X
Giffin, A. and Caticha, A. (2007) Updating Probabilities with Data and Moments
Jaynes, E.T. (1998) Probability Theory: The Logic of Science.
Lee, Peter M. Bayesian Statistics: An Introduction. Second Edition. (1997). ISBN 0-340-67785-6.
O'Hagan, A. and Forster, J. (2003) Kendall's Advanced Theory of Statistics, Volume 2B: Bayesian Inference. Arnold, New York. ISBN 0-340-52922-9.
Pearl, J. (1988) Probabilistic Reasoning in Intelligent Systems, San Mateo, CA: Morgan Kaufmann.
Robert, C.P. (2001) The Bayesian Choice. Springer Verlag, New York.
Robertson, B. and Vignaux, G.A. (1995) Interpreting Evidence: Evaluating Forensic Science in the Courtroom. John Wiley and Sons. Chichester.
Winkler, Robert L, Introduction to Bayesian Inference and Decision, 2nd Edition (2003) Probabilistic. ISBN 0-9647938-4-9
Aster, Richard; Borchers, Brian, and Thurber, Clifford (2012). Parameter Estimation and Inverse Problems, Second Edition, Elsevier. ISBN 0123850487, ISBN 978-0123850485
Bickel, Peter J.; Doksum, Kjell A. (2001). Mathematical Statistics, Volume 1: Basic and Selected Topics (Second (updated printing 2007) edición). Pearson Prentice–Hall. ISBN 978-0-13-850363-5.
Box, G. E. P. and Tiao, G. C. (1973) Bayesian Inference in Statistical Analysis, Wiley, ISBN 0-471-57428-7
Edwards, Ward (1968). «Conservatism in Human Information Processing». En Kleinmuntz, B., ed. Formal Representation of Human Judgment. Wiley.
Edwards, Ward (1982). «Judgment under uncertainty: Heuristics and biases». En Daniel Kahneman; Paul Slovic; Amos Tversky, eds. Science 185 (4157): 1124-1131. Bibcode:1974Sci...185.1124T. PMID 17835457. S2CID 143452957. doi:10.1126/science.185.4157.1124. «Chapter: Conservatism in Human Information Processing (excerpted)».
Jaynes E. T. (2003) Probability Theory: The Logic of Science, CUP. ISBN 978-0-521-59271-0 (Link to Fragmentary Edition of March 1996).
Howson, C.; Urbach, P. (2005). Scientific Reasoning: the Bayesian Approach (3rd edición). Open Court Publishing Company. ISBN 978-0-8126-9578-6.
Phillips, L. D.; Edwards, Ward (October 2008). «Chapter 6: Conservatism in a Simple Probability Inference Task (Journal of Experimental Psychology (1966) 72: 346-354)». En Jie W. Weiss; David J. Weiss, eds. A Science of Decision Making:The Legacy of Ward Edwards. Oxford University Press. p. 536. ISBN 978-0-19-532298-9.

Enlaces externos

Information Theory, Inference, and Learning Algorithms, por David MacKay. Libro en línea con capítulos sobre métodos bayesianos, incluyendo ejemplos, argumentos a favor de los métodos bayesianos (del estilo de Edwin Jaynes), métodos modernos sobre Montecarlo, y métodos variacionales, además de ejemplos ilustrativos acerca de cómo se emplean las redes bayesianas en los algoritmos de compresión de datos (en inglés).
Hazewinkel, Michiel, ed. (2001), «Inferencia bayesiana», Encyclopaedia of Mathematics (en inglés), Springer, ISBN 978-1556080104 .
Bayesian Statistics from Scholarpedia (en inglés).
Introduction to Bayesian probability from Queen Mary University of London (en inglés)
Mathematical Notes on Bayesian Statistics and Markov Chain Monte Carlo (en inglés)
Bayesian reading list. Archivado el 25 de junio de 2011 en Wayback Machine. Categorized and annotated by Tom Griffiths (en inglés).
A. Hajek and S. Hartmann: Bayesian Epistemology, in: J. Dancy et al. (eds.), A Companion to Epistemology. Oxford: Blackwell 2010, 93–106 (en inglés).
S. Hartmann and J. Sprenger: Bayesian Epistemology, in: S. Bernecker and D. Pritchard (eds.), Routledge Companion to Epistemology. London: Routledge 2010, 609–620 (en inglés).
Stanford Encyclopedia of Philosophy: "Inductive Logic" (en inglés).
Bayesian Confirmation Theory (PDF) (en inglés).
"What is Bayesian Learning?" (en inglés).

Datos: Q812535
Multimedia: Bayesian inference / Q812535

[1] "Statistical Decision Theory and Bayesian Analysis", James O. Berger; 1985 ;Springer

[2] "Bayesian Approach to Image Interpretation", Sunil K. Kopparapu, Uday B. Desai; 2001 Springer

[3] "Perception as Bayesian Inference", David C. Knill, Whitman Richards;1996 ;Cambridge University Press

[4] Hacking, Ian (December 1967). «Slightly More Realistic Personal Probability». Philosophy of Science 34 (4): 316. S2CID 14344339. doi:10.1086/288169.

[5] u/entries/bayes-theorem/ «Teorema de Bayes (Stanford Encyclopedia of Philosophy)». Plato.stanford.edu. Consultado el 5 de enero de 2014.

[6] van Fraassen, B. (1989) Laws and Symmetry, Oxford University Press. ISBN 0-19-824860-1

[1]

[2]

[3]

[4]

[5]

[6]