Red bayesiana

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda
Una red Bayesiana simple. Influencia de la lluvia si el rociador está activado e influencia de la lluvia y el rociador si la hierba se encuentra húmeda.

Una red bayesiana, red de Bayes, red de creencia, modelo bayesiano (de Bayes) o modelo probabilístico en un gráfico acíclico dirigido es un modelo gráfico probabilístico (un tipo de modelo estático) que representa un conjunto de variables aleatorias y sus dependencias condicionales a través de un gráfico acíclico dirigido (DAG por sus siglas en inglés). Por ejemplo, una red bayesiana puede representar las relaciones probabilísticas entre enfermedades y síntomas. Dados los síntomas, la red puede ser usada para computar las probabilidad de la presencia de varias enfermedades.

Formalmente, las redes bayesianas son grafos dirigidos acíclicos cuyos nodos representan variables aleatorias en el sentido de Bayes: las mismas pueden ser cantidades observables, variables latentes, parámetros desconocidos o hipótesis. Las aristas representan dependencias condicionales; los nodos que no se encuentran conectados representan variables las cuales son condicionalmente independientes de las otras. Cada nodo tiene asociado una función de probabilidad que toma como entrada un conjunto particular de valores de las variables padres del nodo y devuelve la probabilidad de la variable representada por el nodo. Por ejemplo, si por padres son m variables booleanas entonces la función de probabilidad puede ser representada por una tabla de 2^m entradas, una entrada para cada una de las 2^m posibles combinaciones de los padres siendo verdadero o falso. Ideas similares pueden ser aplicadas a grafos no dirigidos, y posiblemente cíclicos; como son las llamadas redes de Markov.

Existen algoritmos eficientes que llevan a cabo la inferencia y el aprendizaje en redes bayesianas. Las redes bayesianas que modelan secuencias de variables (ej señales del habla o secuencias de proteínas) son llamadas redes bayesianas dinámicas. Las generalizaciones de las redes bayesianas que pueden representar y resolver problemas de decisión bajo incertidumbre son llamados diagramas de influencia.

Ejemplo[editar]

Ejemplo de una red bayesiana simple.

Supongamos que hay dos eventos los cuales pueden causar que la hierba esté húmeda: que el rociador esté activado o que esté lloviendo. También supongamos que la lluvia tiene un efecto directo sobre el uso del rociador (usualmente cuando llueve el rociador se encuentra apagado). Entonces la situación puede ser modelada con una red Bayesiana (como hemos visto). Las tres variables tienen dos posibles valores, T (para verdadero) y F (para falso). La función de probabilidad conjunta es:

\mathrm P(G,S,R)=\mathrm P(G|S,R)\mathrm P(S|R)\mathrm P(R)

donde los nombres de las variables han sido abreviados a G = Hierba húmeda, S = Rociador activado, y R = Lloviendo.

El modelo puede responder preguntas como "¿Cuál es la probabilidad de que esté lloviendo dado que la hierba está húmeda?" usando la fórmula de probabilidad condicional y sumando sobre todas las variables incordias:

 \mathrm P(\mathit{R}=T \mid \mathit{G}=T)=\frac{\mathrm P(\mathit{G}=T,\mathit{R}=T)}{\mathrm P(\mathit{G}=T)}=\frac{\sum_{\mathit{S} \in \{T, F\}}\mathrm P(\mathit{G}=T,\mathit{S},\mathit{R}=T)}{\sum_{\mathit{S}, \mathit{R} \in \{T, F\}} \mathrm P(\mathit{G}=T,\mathit{S},\mathit{R})}
 = \frac{(0.99 \times 0.01 \times 0.2 = 0.00198_{TTT}) + (0.8 \times 0.99 \times 0.2 = 0.1584_{TFT})}{0.00198_{TTT} + 0.288_{TTF} + 0.1584_{TFT} + 0_{TFF}} \approx 35.77 %.

Como está señalado explícitamente en el numerador del ejemplo, la función de probabilidad conjunta es usada para calcular cada iteración de la función de sumatoria, marginalizando sobre \mathit{S} en el numerador y sobre \mathit{S} y \mathit{R} en el denominador.

Si, por otra parte, deseamos responder una pregunta intermedia: "¿Cuál es la probabilidad de que llueva dado que la hierba está húmeda?" la respuesta puede ser dada por la post-intervención de la función de distribución conjunta \mathrm P(S,R|do(G=T)) = P(S|R) P(R) obtenida removiendo el factor \mathrm P(G|S,R) de la distribución de pre-intervención. Como era de esperarse, la probabilidad de que llueva no es afectada por la acción: \mathrm P(R|do(G=T)) = P(R).

Si por otra aorte queremos predecir el impacto que tendrá encender el rociador, tenemos entoncs P(R,G|do(S=T)) = P(R)P(G|R,S=T) con el término P(S=T|R) eliminado, mostrando que la acción tiene efecto sobre la hierba pero no sobre la lluvia.

Estas predicciones no son factibles cuando alguna de las variables no son observadas, como en la mayoría de los problemas de evaluación. El efecto de la acción do(x) puede mantenerce predictivo, sin embargo, cada vez un criterio llamado "puerta trasera" es satisfecho.[1] Los estados que, si un conjunto Z de nodos puede ser onservado que d-separa (o bloquea) todos los caminos de "puestra trasera" desde X hasta Y entonces P(Y,Z|do(x)) = P(Y,Z,X=x)/P(X=x|Z). Un camino de puestra trasera es uno que termina con una flecha hacia X. Los conjuntos que satisfacen el criterio de puerta trasera son llamados "suficientes" o "admisibles". Por ejemplo, el conjunto Z=R es admisible para predecir el efecto de S=T sobre G, porque R d-separa el (único) camino de puerta trasera S?R?G. Sin embargo, si S no es observado, no hay otro conjunto que d-separe este camino y el efecto de encender los rociadores (S=T) sobre la hierba (G) no puede ser predecido desde observaciones pasivas. Nosotros entonces decimos que P(G|do(S=T)) no está identificado. Esto refleja el hecho de que, careciendo de datos intervencionales, no podemos determinar si la dependencia observada entre S y G es debido a una conexión casual o debido a una artificial creada por una causa común, R. (ver paradoja de Simpson)

Para determinar si una relación casual es identificada desde una red Bayesiana arbitraria con variables no obervadas, uno puede usar las tres reglas de "do-calculus"[1] [2] y probar si todos los términos do pueden ser eliminados de la expresión de la relación, así conforme que la cantidad deseada es estimable desde la frecuencia de datos.[3]

Usar una red de bayesian puede salvar las cantidades considerables de la memoria, si las dependencias en el reparto conjunto están escasas. Por ejemplo, una manera ingenua de guardar las probabilidades condicionales de 10 variables con dos valores como una tabla requiere el espacio de almacenamiento para 2^{10} = 1024 valores. Si las distribuciones locales de ninguna variable depende de más de 3 variables padre, la representación de la red de bayesiana solamente tiene que almacenar a lo sumo 10\cdot 2^3 = 80 valores.

Una ventaja de las redes bayesianas es que es intuitivamente más fácil para un ser humano comprender (un conjunto escaso de) dependencias directas y distribuciones locales que la distribución conjunta completa.

Inferencia de y aprendizaje[editar]

Hay tres tareas principales de inferencia para las redes bayesianas.

Deducción de variables no observadas[editar]

Debido a que una red bayesiana es un modelo completo de las variables y sus relaciones, se puede utilizar para responder a las consultas de probabilidad acerca de ellos. Por ejemplo, la red se puede utilizar para averiguar el conocimiento actualizado del estado de un subconjunto de variables cuando otras variables (las variables de evidencia) se observan. Este proceso de cálculo de la distribución posterior de las variables dada la evidencia que se llama inferencia probabilística. La posterior da un suficiente estadístico universal para aplicaciones de detección, cuando se quiere elegir los valores para la variable de un subconjunto que minimizan alguna función de pérdida esperada, por ejemplo, la probabilidad de error de decisión. Una red bayesiana de esta manera, puede considerarse como un mecanismo para aplicar automáticamente el teorema de Bayes a problemas complejos.

Los métodos más comunes de inferencia exactas son: eliminación de variables, el cual elimina (mediante integración o suma) las variables no observadas y no consultadas una por una mediante la distribución de la suma sobre el producto; propagación en un árbol clique, que almacena en caché el cálculo de modo que muchas variables se pueden consultar en una vez y nueva evidencia se puede propagar rápidamente; y condicionamiento recursivo y búsqueda AND/OR, que permiten un equilibrio espacio-tiempo y realiza eficientemente la eliminación de variables cuando se usa suficiente espacio. Todos estos métodos tienen una complejidad que es exponencial con respecto al ancho del árbol. Los algoritmos de inferencia aproximada más comunes son muestreo de importancia, simulación estocástica MCMC (Markov Chain Monte Carlo), eliminación mini-cubo, LBP (Loopy Belief Propagation), GBP (Generalized Belief Propagation), y los métodos variacionales.

Aprendizaje de Parámetros[editar]

Para especificar completamente la red bayesiana y por lo tanto representar plenamente a la distribución de probabilidad conjunta , es necesario especificar para cada nodo X la distribución de probabilidad de X condicionada dado sus padres. La distribución de X condicionada dado sus padres puede tener cualquier forma. Es común trabajar con distribuciones discretas o gaussianas ya que simplifica los cálculos. A veces sólo restricciones sobre una distribución son conocidas; uno puede entonces utilizar el principio de máxima entropía para determinar una distribución única. (Análogamente, en el contexto específico de una red bayesiana dinámica, una que comúnmente especifica la distribución condicional para la evolución temporal del estado ocultos para maximizar la tasa de entropía del proceso estocástico implícito) A menudo, estas distribuciones condicionales incluyen parámetros que son desconocidos y deben estimarse a partir de los datos, a veces utilizando el enfoque de máxima probabilidad. La maximización directa de la probabilidad (o de la probabilidad posterior) es a menudo compleja cuando hay variables no observadas. Un método clásico de este problema es el algoritmo de expectación-maximización el cual alterna los valores esperados computados de las variables condicionales no observadas a datos observados, con la maximización de la probabilidad total (o posterior) suponiendo que previamente calculados los valores esperados son correctas. Bajo condiciones de regularidad leves este proceso converge en valores de probabilidad máxima (o máximo posterior) para los parámetros. Un enfoque más Bayesiano es tratar a los parámetros como variables no observadas adicionales y para calcular la distribución posterior completa sobre todos los nodos condicionales de los datos observados, después, integrar los parámetros. Este enfoque puede ser costoso y llevar a modelos de grandes dimensiones, por lo que en la práctica enfoques de ajuste de parámetros clásicos son más comunes.

Aprendizaje de Estructuras[editar]

En el caso más simple, una red bayesiana se especifica por un experto y se utiliza entonces para realizar inferencia. En otras aplicaciones, la tarea de definir la red es demasiado compleja para los seres humanos. En este caso la estructura de la red y los parámetros de las distribuciones locales debe ser aprendido de datos.

El aprendizaje automático de la estructura gráfica de una red bayesiana es un reto dentro del aprendizaje de máquina. La idea básica se remonta a un algoritmo de recuperación desarrollado por Rebane y Pearl (1987)[4] y se basa en la distinción entre los tres tipos posibles de triplos adyacentes permitidos en un gráfico acíclico dirigido (DAG):

  1. X \rightarrow Y \rightarrow Z
  2. X \leftarrow Y \rightarrow Z
  3. X \rightarrow Y \leftarrow Z

Tipo 1 y tipo 2 representan las mismas dependencias (X y Z son independientes dada Y) y son, por tanto, indistinguibles. Tipo 3, sin embargo, puede ser identificado de forma única, ya que X y Z son marginalmente independientes y todos los otros pares son dependientes. Así, mientras que los esqueletos (los grafos despojados de flechas) de estos tres triplos son idénticos, la direccionalidad de las flechas es parcialmente identificable. La misma distinción se aplica cuando X y Z tienen padres comunes, excepto que uno debe condicionar primero en esos padres. Se han desarrollado algoritmos para determinar sistemáticamente el esqueleto del grafo subyacente y, a continuación, orientar todas las flechas cuya direccionalidad está dictada por las independencias condicionales observados.[1] [5] [6] [7]

Un método alternativo de aprendizaje estructural utiliza la optimización basada en búsquedas. Se requiere una función de puntuación y una estrategia de búsqueda. Una función de puntuación común es la probabilidad posterior de la estructura dado los datos de entrenamiento. El requisito de tiempo de una búsqueda exhaustiva retornando una estructura que maximice la puntuación es superexponencial en el número de variables. Una estrategia de búsqueda local hace cambios incrementales destinados a mejorar la puntuación de la estructura. Un algoritmo de búsqueda global como la cadena de Markov Monte Carlo puede evitar quedar atrapado en mínimos locales. Friedman et al.[8] [9] habla acerca del uso de la información mutua entre las variables y encontrar una estructura que maximiza esto. Lo hacen mediante la restricción del conjunto de padres candidatos a k nodos y exhaustivamente buscan en el mismo.

Introducción estadística[editar]

Dados los datos x\,\! y el parámetro \theta, Un simple análisis Bayesiano comienza con una probabilidad a priori (antes) p(\theta) y probabilidad p(x|\theta) para calcular una probabilidad posterior p(\theta|x) \propto p(x|\theta)p(\theta). A menudo, el antes en \theta, depende a su vez de otros parámetros \varphi que no se mencionan en la probabilidad. Por lo tanto, la previa p(\theta) debe ser sustituido por una probabilidad p(\theta|\varphi), y un previo \varphi en los parámetros introducidos recientemente \varphi se requiere, lo que resulta en una probabilidad posterior

p(\theta,\varphi|x) \propto 
p(x|\theta)p(\theta|\varphi)p(\varphi).

Este es el ejemplo más simple de un modelo jerárquico Bayesiano. El proceso se puede repetir, por ejemplo, los parámetros \varphi pueden depender a su vez de parámetros adicionales \psi\,\!, lo que requerirá su propio previo. Finalmente, el proceso debe terminar, con previos que no dependen de otros parámetros no se han mencionado.

Ejemplos Introductorios[editar]

Supongamos que hemos medido las cantidades x_1,\dots,x_n\,\! cada una con una distribución normal de los errores conocidos y desviación estándar \sigma\,\!,


x_i \sim N(\theta_i, \sigma^2)

Supongamos que estamos interesados en estimar la \theta_i. Un enfoque sería estimar la \theta_i utilizando un enfoque de máxima verosimilitud; ya que las observaciones son independientes, la probabilidad factoriza y la estimación de máxima probabilidad es simplemente


\theta_i = x_i

Sin embargo, si las cantidades están relacionados, de modo que por ejemplo se puede pensar que los \theta_i individuales han sido extraídos de una distribución subyacente, a continuación, esta relación destruye la independencia y sugiere un modelo más complejo, por ejemplo,


x_i \sim N(\theta_i,\sigma^2),

\theta_i\sim N(\varphi, \tau^2)

con previos inapropiados \varphi\simplana, \tau\simplano \in (0,\infty). ¿Cuándo n\ge 3, este es un modelo identificado (es decir, existe una única solución para los parámetros del modelo), y la distribución posterior de la \theta_i individual tenderá a moverse o reducir la distancia de máxima verosimilitud estimada hacia su media común. Esta contracción es un comportamiento típico de los modelos jerárquicos bayesianos.

Restricciones a los previos[editar]

Hay que tener algún cuidado al elegir los previos en un modelo jerárquico, en particular sobre las variables de escala en los niveles superiores de la jerarquía, como la variable \tau\,\! en el ejemplo. Los previos habituales, tales como los previos de Jeffrey a menudo no funcionan, debido a que la distribución posterior será incorrecta (no normalizable), y estimaciones realizadas por reducir al mínimo la pérdida esperada será inadmisible .

Definiciones y conceptos[editar]

Hay varias definiciones equivalentes de una red bayesiana. Por todo lo siguiente, sea G = (V, E) un gráfico acíclico dirigido (o DAG), y sea X = (Xv)v ? V un conjunto de variables aleatorias indexadas por V.

Definición de factorización[editar]

X es una red bayesiana con respecto a G si su función de densidad de probabilidad conjunta (con respecto a una medida de producto) se puede escribir como un producto de las funciones de densidad individuales, condicionadas a las variables de sus padres:[10]  p (x) = \prod_{v \in V} p \big(x_v \,\big|\, x_{\operatorname{pa}(v)} \big)

donde pa(v) es el conjunto de padres de v (es decir, los vértices apuntando directamente a v a través de una sola arista).

Para cualquier conjunto de variables aleatorias, la probabilidad de cualquier miembro de una distribución conjunta se puede calcular a partir de las probabilidades condicionales utilizando la regla de la cadena (dado un ordenamiento topológico de X) como sigue:[10] \mathrm  P(X_1=x_1, \ldots, X_n=x_n) = \prod_{v=1}^n \mathrm P(X_v=x_v \mid X_{v+1}=x_{v+1}, \ldots, X_n=x_n )

Compárese esto con la definición anterior, que puede ser escrita como: \mathrm  P(X_1=x_1, \ldots, X_n=x_n) = \prod_{v=1}^n \mathrm P(X_v=x_v \mid X_j=x_j por cada X_j\, el cual es padre de  X_v\, )

La diferencia entre las dos expresiones es la independencia condicional de las variables de cualquiera de sus no-descendientes, dados los valores de las variables de sus padres.

Propiedad local de Markov[editar]

X es una red bayesiana con respecto a V si satisface la propiedad local de Markov: cada variable es condicionalmente independiente de sus no-descendientes dado sus variables padres:[11]

 X_v \perp\!\!\!\perp X_{V \setminus \operatorname{de}(v)} \,|\, X_{\operatorname{pa}(v)} \quad\text{for all }v \in V

donde de(v) es el conjunto de descendientes de v.

Esto también se puede expresar en términos similares a la primera definición, como

\mathrm  P(X_v=x_v \mid  X_i=x_i para cada X_i\, la cual no es descendiente de  X_v\, ) = P(X_v=x_v \mid X_j=x_j para cada X_j\, que es padre de  X_v\, )

Tenga en cuenta que el conjunto de los padres es un subconjunto del conjunto de los no descendientes porque el grafo es acíclico.

Desarrollo de redes bayesianas[editar]

Desarrollar una red bayesiana, que a menudo se desarrolla primero un DAG G tal que creemos que X satisface la propiedad local de Markov con respecto a G. A veces esto se hace creando un DAG casual. A continuación, determinar las distribuciones de probabilidad condicional de cada variable dados sus padres en G. En muchos casos, en particular en el caso donde las variables son discretas, si se define la distribución conjunta de X como el producto de las distribuciones condicionales, entonces X es una red bayesiana con respecto a G.[12]

Manta de Markov[editar]

La manta de Markov de un nodo es el conjunto de nodos vecinos: sus padres, sus hijos y otros padres de sus hijos. X es una red bayesiana con respecto a G si cada nodo es condicionalmente independiente de todos los demás nodos de la red, dada su manta Markov.[11]

d-separación[editar]

Esta definición puede ser más general mediante la definición de la "d" de separación de dos nodos, donde d es direccional.[13] [14] Sea P un camino (es decir, una colección de aristas, que es como un camino, pero cada una de cuyas aristas pueden tener cualquier dirección) de un nodo de u a v. Entonces P se dice que es d-separado por un conjunto de nodos Z si y sólo si (al menos) uno de cumple lo siguiente:

  1. P contiene una cadena, x -> m -> y, de manera tal que el nodo medio de m está en Z,
  2. P contiene una cadena, x <- m <- y, de manera tal que el nodo medio de m está en Z,
  3. P contiene una divergencia de m, x <- m -> y, de manera tal que el nodo medio de m está en Z, o
  4. P contiene una convergencia a m, x -> m <- y, de manera tal que el nodo medio de m no está en Z y el no descendiente de m está en Z.

Así, u y v se dice que están d-separados por Z si todas las rutas entre ellos son d-separados. Si U y V no son d-separados, se les llama d-conectado.

X es una red bayesiana con respecto a G si, para cualquier par de nodos u, v:

X_u \perp\!\!\!\perp X_v \, | \, X_Z

donde Z es un conjunto que d-separa u y v. (La manta de Markov es el conjunto mínimo de nodos que d-separa al nodo v de todos los demás nodos)

Modelos Jerárquicos[editar]

El término modelo jerárquico a veces se considera un tipo particular de red Bayesiana, pero no tiene una definición formal. A veces el término se reserva para los modelos con tres o más niveles de las variables aleatorias, en otras ocasiones, se reserva para los modelos con variables latentes. En general, sin embargo, cualquier red Bayesiana moderadamente compleja suele llamarse "jerárquica".

Redes Causales[editar]

Aunque las redes Bayesianas se utilizan a menudo para representar relaciones causales, esto no tiene por qué ser el caso: una arista dirigida de u a v no requiere que Xv sea causalmente dependiente de Xu. Esto se demuestra por el hecho de que las redes Bayesianas en los grafos:

 a \longrightarrow b \longrightarrow c \qquad \text{and} 
\qquad a \longleftarrow b \longleftarrow c

son equivalentes, es decir imponen exactamente los mismos requisitos de independencia condicional.

Una red causal es una red Bayesiana con un requisito explícito de que la relación sea causal. Las semánticas adicionales de las redes causales especifican que si un nodo X está activamente causado a estar en un estado dado x (una acción escrita como lo hacen (X=x)), entonces la probabilidad de cambios de la función de densidad a la de la red obtenida por cortar los vínculos de los padres de X a X, y el seteando X al valor causada x.[1] El uso de estas semánticas, se puede predecir el impacto de las intervenciones externas de los datos obtenidos antes de la intervención.

Aplicaciones[editar]

Las redes Bayesianas se utilizan para el modelado del conocimiento en biología computacional y bioinformática (redes reguladoras de genes, la estructura de la proteína, la expresión de genes de análisis,[15] el aprendizaje de epistasis a partir de los conjuntos de datos de GWAS[16] ), la medicina,[17] biomonitoreo,[18] la clasificación de documentos, recuperación de información,[19] la búsqueda semántica,[20] el procesamiento de imágenes, fusión de datos, sistemas de soporte de decisiones,[21] la ingeniería, los juegos y la ley.[22] [23] [24]

Software[editar]

Historia[editar]

El término "redes bayesianas" fue acuñado por Judea Pearl en 1985 para hacer hincapié en tres aspectos:[25]

  1. El carácter a menudo subjetivo de la información de entrada.
  2. La dependencia de acondicionamiento de Bayes como base para la actualización de la información.
  3. La distinción entre los modos causales y probatorio de razonamiento, lo que subraya Thomas Bayes en un documento publicado póstumamente en 1763.[26]

A finales de 1980 los textos seminales Razonamiento Probabilístico en Sistemas Inteligentes[27] y Razonamiento Probabilístico en Sistemas Expertos[28] resume las propiedades de las redes Bayesianas y ayudó a establecer las mismas como un campo de estudio.

Variantes informales de este tipo de redes se utilizaron por primera vez por el jurista John Henry Wigmore, en forma de grafos de Wigmore, para analizar la evidencia en un juicio en 1913.[23] :66–76 Otra variante, llamada diagrama de rutas, fue desarrollada por el genetista Sewall Wright[29] y utilizado en ciencias de la conducta y sociales (en su mayoría con modelos paramétricos lineales).

Véase también[editar]

Referencias[editar]

  1. a b c d Pearl, Judea (2000). Causality: Models, Reasoning, and Inference. Cambridge University Press. ISBN 0-521-77362-8. 
  2. J., Pearl (1994). «A Probabilistic Calculus of Actions». En Lopez de Mantaras, R.; Poole, D.. UAI'94 Proceedings of the Tenth international conference on Uncertainty in artificial intelligence. San Mateo CA: Morgan Kaufman. pp. 454–462. ISBN 1-55860-332-8. 
  3. I. Shpitser, J. Pearl, "Identification of Conditional Interventional Distributions" In R. Dechter and T.S. Richardson (Eds.), Proceedings of the Twenty-Second Conference on Uncertainty in Artificial Intelligence, 437-444, Corvallis, OR: AUAI Press, 2006.
  4. Rebane, G. and Pearl, J., "The Recovery of Causal Poly-trees from Statistical Data," Proceedings, 3rd Workshop on Uncertainty in AI, (Seattle, WA) pages 222–228, 1987
  5. «An algorithm for fast recovery of sparse causal graphs» (PDF). Social Science Computer Review 9 (1):  pp. 62–72. 1991. doi:10.1177/089443939100900106. http://repository.cmu.edu/cgi/viewcontent.cgi?article=1316&context=philosophy. 
  6. Spirtes, Peter; Glymour, Clark N.; Scheines, Richard (1993). Causation, Prediction, and Search (1st edición). Springer-Verlag. ISBN 978-0-387-97979-3. http://books.google.com/books?id=VkawQgAACAAJ. 
  7. Verma, Thomas; Pearl, Judea (1991). «Equivalence and synthesis of causal models». En Bonissone, P.; Henrion, M.; Kanal, L.N. et ál.. UAI '90 Proceedings of the Sixth Annual Conference on Uncertainty in Artificial Intelligence. Elsevier. pp. 255–270. ISBN 0-444-89264-8. 
  8. Machine Learning 29 (2/3):  pp. 131. 1997. doi:10.1023/A:1007465528199. 
  9. «Using Bayesian Networks to Analyze Expression Data». Journal of Computational Biology 7 (3–4):  pp. 601–620. 2000. doi:10.1089/106652700750050961. PMID 11108481. 
  10. a b Russell y Norvig, 2003, p. 496.
  11. a b Russell y Norvig, 2003, p. 499.
  12. Neapolitan, Richard E. (2004). Learning Bayesian networks. Prentice Hall. ISBN 978-0-13-012534-7. http://books.google.com/books?id=OlMZAQAAIAAJ. 
  13. Geiger, Dan (1990). «Identifying independence in Bayesian Networks» (PDF). Networks 20:  pp. 507–534. doi:10.1177/089443939100900106. http://ftp.cs.ucla.edu/pub/stat_ser/r116.pdf. 
  14. Richard Scheines, D-separation, http://www.andrew.cmu.edu/user/scheines/tutor/d-sep.html 
  15. N. Friedman, M. Linial, I. Nachman, D. Pe'er (August 2000). «Using Bayesian Networks to Analyze Expression Data». Journal of Computational Biology (Larchmont (Nueva York): Mary Ann Liebert, Inc.) 7 (3/4):  pp. 601–620. doi:10.1089/106652700750050961. ISSN 1066-5277. PMID 11108481. 
  16. Jiang, X.; Neapolitan, R.E.; Barmada, M.M.; Visweswaran, S. (2011). «Learning Genetic Epistasis using Bayesian Network Scoring Criteria». BMC Bioinformatics 12:  pp. 89. doi:10.1186/1471-2105-12-89. PMID 21453508. PMC 3080825. http://www.biomedcentral.com/1471-2105/12/89. 
  17. J. Uebersax (2004). Genetic Counseling and Cancer Risk Modeling: An Application of Bayes Nets. Marbella, Spain: Ravenpack International. http://www.john-uebersax.com/stat/bayes_net_breast_cancer.doc. 
  18. Jiang X, Cooper GF. (July–August 2010). «A Bayesian spatio-temporal method for disease outbreak detection». J Am Med Inform Assoc 17 (4):  pp. 462–71. doi:10.1136/jamia.2009.000356. PMID 20595315. PMC 2995651. http://jamia.bmj.com/cgi/pmidlookup?view=long&pmid=20595315. 
  19. Luis M. de Campos, Juan M. Fernández-Luna and Juan F. Huete (2004). «Bayesian networks and information retrieval: an introduction to the special issue». Information Processing & Management (Elsevier) 40 (5):  pp. 727–733. doi:10.1016/j.ipm.2004.03.001. ISBN 0-471-14182-8. 
  20. Christos L. Koumenides and Nigel R. Shadbolt. 2012. Combining link and content-based information in a Bayesian inference model for entity search. In Proceedings of the 1st Joint International Workshop on Entity-Oriented and Semantic Search (JIWES '12). ACM, Nueva York, NY, EE.UU., , Article 3 , 6 pages. DOI=10.1145/2379307.2379310
  21. F.J. Díez, J. Mira, E. Iturralde and S. Zubillaga (1997). «DIAVAL, a Bayesian expert system for echocardiography». Artificial Intelligence in Medicine (Elsevier) 10 (1):  pp. 59–73. PMID 9177816. http://www.cisiad.uned.es/papers/diaval.php. 
  22. G. A. Davis (2003). «Bayesian reconstruction of traffic accidents». Law, Probability and Risk 2 (2):  pp. 69–89. doi:10.1093/lpr/2.2.69. 
  23. a b J. B. Kadane and D. A. Schum (1996). A Probabilistic Analysis of the Sacco and Vanzetti Evidence. Nueva York: Wiley. ISBN 0-471-14182-8. 
  24. O. Pourret, P. Naim and B. Marcot (2008). Bayesian Networks: A Practical Guide to Applications. Chichester, UK: Wiley. ISBN 978-0-470-06030-8. http://www.wiley.com/go/pourret. 
  25. Pearl, J. (1985). «Bayesian Networks: A Model of Self-Activated Memory for Evidential Reasoning» (UCLA Technical Report CSD-850017). Proceedings of the 7th Conference of the Cognitive Science Society, University of California, Irvine, CA. pp. 329–334. 
  26. Bayes, T. (1763). «An Essay towards solving a Problem in the Doctrine of Chances». Philosophical Transactions of the Royal Society of London 53:  pp. 370–418. doi:10.1098/rstl.1763.0053. 
  27. Pearl, J.. Probabilistic Reasoning in Intelligent Systems. San Francisco CA: Morgan Kaufmann. pp. 1988. ISBN 1558604790. http://books.google.com/books?id=AvNID7LyMusC. 
  28. Neapolitan, Richard E. (1989). Probabilistic reasoning in expert systems: theory and algorithms. Wiley. ISBN 978-0-471-61840-9. http://books.google.com/books?id=-KtQAAAAMAAJ. 
  29. Wright, S. (1921). «Correlation and Causation» (PDF). Journal of Agricultural Research 20 (7):  pp. 557–585. http://www.ssc.wisc.edu/soc/class/soc952/Wright/Wright_Correlation%2and%20Causation.pdf. 

Para saber más[editar]

Enlaces externos[editar]