Diferencia entre revisiones de «Red bayesiana»

De Wikipedia, la enciclopedia libre
Contenido eliminado Contenido añadido
Raspabill (discusión · contribs.)
Sin resumen de edición
Todo el contenido fue cambiado. Las fuentes se encuentran en la propia página.
Línea 1: Línea 1:
[[Image:Nodos de una Red Bayesiana Simple.png|thumb|right|Una red Bayesiana simple. Influencia de la lluvia si el rociador está activado e influencia de la lluvia y el rociador si la hierba se encuentra húmeda.]]
Una '''red bayesiana''', o '''red de creencia''', es un modelo [[Probabilidad|probabilístico]] multivariado que relaciona un [[conjunto]] de [[variables aleatorias]] mediante un [[grafo]] dirigido que indica explícitamente influencia causal. Gracias a su motor de actualización de probabilidades, el [[Teorema de Bayes]], las redes bayesianas son una herramienta extremadamente útil en la estimación de probabilidades ante nuevas evidencias<ref>P. Naïm, P. Wuillemin, P. Leray, O. Pourret, A. Becker. [http://www.eyrolles.com/Sciences/Livre/9782212111378/livre-reseaux-bayesiens.php Les réseaux bayésiens], Eyrolles 2004 (en francés.
</ref>
.


Una '''red Bayesiana''', '''red de Bayes''', '''red de creencia''',
Una red bayesiana es un tipo de [[red causal]]. Un híbrido de red bayesiana y Teoría de la Utilidad es un diagrama de influencia.
'''modelo Bayesiano (de Bayes)''' o '''modelo probabilístico en un gráfico acíclico dirigido''' es un [[modelo gráfico|modelo gráfico probabilístico]] (un tipo de [[modelo estático]]) que representa un conjunto de [[variables aleatorias]] y sus [[independencia condicional|dependencia condicional]] a través de un[[gráfico acíclico dirigido]] (DAG por sus siglas en inglés). Por ejemplo, una red Bayesiana puede representar las relaciones probabilísticas entre enfermedades y síntomas. Dados los síntomas, la red puede ser usada para computar las probabilidad de la presencia de varias enfermedades.


Formalmente, las redes Bayesianas son [[grafos dirigidos acíclicos]] cuyos nodos representan [[variables aleatorias]] en el sentido de [[probabilidad Bayesiana|Bayes]]: las mismas pueden se cantidades observables, [[variables latentes]], parámetros desconocidos o hipótesis. Las aristas representan dependencias condicionales; los nodos que nos se encuantran conectados representan variables las cuales son condicionalmente independientes de las otras. Cada nodo tiene asociado una
== Definiciones y Concepto ==
[[función de probabilidad]] que toma como entrada un conjunto particular de valores de las variables [[Glosario de teoría de grafos#gráfico acíclico dirigido|padres]] del nodo y devuelve la probabilidad de la variable representada por el nodo. Por ejemplo, si por padres son <math>m</math> variables booleanas entonces la función de probabilidad puede ser representada por una tabla de <small><math>2^m</math></small> entradas, una entrada para cada una de las <small><math>2^m</math></small> posibles combinaciones de los padres siendo verdadero o falso. Ideas similares pueden ser aplicadas a grafos no dirigidos, y posiblemente cíclicos; como son las llamadas [[red de Markov|redes de Markov]].


Existen algoritmos eficientes que llevan a cabo la [[inferencia]] y el [[aprendizaje de máquica|aprendizaje]] en redes Bayesianas. Las redes Bayesianas que modelan secuencias de variables (''ej'' [[reconocimiento del habla|señales del habla]] o [[secuencias de proteínas]]) son llamadas [[res Bayesiana dinámica|redes Bayesianas dinámicas]]. Las generalizaciones de las redes Bayesianas que pueden representar y resolver problemas de desición bajo incertidumbre son llamados [[diagramas de influencia]].
Formalmente, las redes Bayesianas son [[gráfico acíclico dirigido|gráficos acíclicos dirigidos]] cuyos nodos representan variables y los [[Arco (geometría)|arcos]] que los unen codifican dependencias condicionales entre las variables. Los nodos pueden representar cualquier tipo de variable, ya sea un parámetro medible (o medido), una variable latente o una [[hipótesis (método científico)|hipótesis]]. Existen algoritmos que realizan [[inferencia]]s y aprendizaje basados en redes bayesianas.


==Ejemplo==
Si existe un arco que une un nodo ''A'' con otro nodo ''B'', ''A'' es denominado un padre de ''B'', y ''B'' es llamado un ''hijo'' de ''A''. El conjunto de nodos padre de un nodo ''X''<sub>i</sub> se denota como padres(''X''<sub>i</sub>). Un gráfico acíclico dirigido es una red Bayesiana relativa a un conjunto de variables si la [[distribución conjunta]] de los valores del nodo puede ser escrita como el producto de las distribuciones locales de cada nodo y sus padres:


[[Image:Red Bayesiana Simple.png|thumb|right|Una red Bayesiana simple.]]
:<math>\mathrm P(X_1, \ldots, X_n) = \prod_{i=1}^n \mathrm P(X_i \mid \operatorname{padres}(X_i)).\,</math>


Supongamos que hay dos eventos los cuales pueden causar que la hierba esté húmeda: que el rociador esté activado o que esté lloviendo. También supongamos que la lluvia tiene un efecto directo sobre el uso del rociador (usualmente cuando llueve el rociador se encuentra apagado). Entonces la situación puede ser modelada con una red Bayesiana (como hemos visto). Las tres variables tienen dos posibles valores, T (para verdadero) y F (para falso).
Si el nodo <math>X_i</math> no tiene padres, su [[distribución local de probabilidad]] se toma como ''incondicional'', en otro caso es ''condicional''. Si el valor de un nodo es observable - y por tanto etiquetado como observado, dicho nodo es un nodo de ''evidencia''.


La función de probabilidad conjunta es:
== Aplicaciones ==


: <math>\mathrm P(G,S,R)=\mathrm P(G|S,R)\mathrm P(S|R)\mathrm P(R)</math>
Las redes bayesianas son un tipo de modelos de [[minería de datos]] que pueden ser utilizados en cualquiera de las siguientes actividades de negocio:


donde los nombres de las variables han sido abreviados a ''G = Hierba húmeda'', ''S = Rociador activado'', y ''R = Lloviendo''.
* Prevención del fraude
* Prevención del abandono de clientes
* Marketing personalizado
* Mantenimiento<ref>Álvaro Carrera, Javier Gonzalez-Ordás, Javier García-Algarra, Pablo Arozarena, Mercedes Garijo. [http://books.google.es/books/ucm?id=PDCtUvMReVIC&oi=fnd&pg=PA113 A Multi-agent system with Distributed Bayesian Reasoning for Network Fault Diagnosis], Springer, 2011.</ref>
* Scoring de clientes
* Clasificación de datos estelares


El modelo puede responder preguntas como "¿Cuál es la probabilidad de que esté lloviendo dado que la hierba está húmeda?" usando la fórmula de [[probalididad condicional]] y sumando sobre todas las variables incordias:
== Algoritmos de inferencia probabilística sobre redes bayesianas ==
:<math> \mathrm P(\mathit{R}=T \mid \mathit{G}=T)=\frac{\mathrm P(\mathit{G}=T,\mathit{R}=T)}{\mathrm P(\mathit{G}=T)}=\frac{\sum_{\mathit{S} \in \{T, F\}}\mathrm P(\mathit{G}=T,\mathit{S},\mathit{R}=T)}{\sum_{\mathit{S}, \mathit{R}
\in \{T, F\}} \mathrm P(\mathit{G}=T,\mathit{S},\mathit{R})}</math>::<math> = \frac{(0.99 \times 0.01 \times 0.2 = 0.00198_{TTT}) + (0.8 \times 0.99 \times 0.2 = 0.1584_{TFT})}{0.00198_{TTT} + 0.288_{TTF} + 0.1584_{TFT} + 0_{TFF}} \approx 35.77 %.</math>


Como está señalado explícitamente en el numerador del ejemplo, la función de probabilidad conjunta es usada para calcular cada iteración de la función de sumatoria, marginalizando sobre <math>\mathit{S}</math> en el [[numerator]] and sobre <math>\mathit{S}</math> y <math>\mathit{R}</math> en el [[denominator]].
Dado una red bayesiana se puede proceder a la obtención de conocimiento dado los valores que adoptan las variables en el entorno especificado por ella. Algunos de ellos son:


Si, por otra parte, deseamor responder una presgunta intermedia: "¿Cuál es la probabilidad de que llueva dado que la hierba está húmeda?" la respuesta puede ser dada por la post-intervención de la función de distribución conjunta <math>\mathrm P(S,R|do(G=T)) = P(S|R) P(R)</math> obtenida removiendo el factor <math>\mathrm P(G|S,R)</math> de la distribución de pre-intervención. Como era de esperarse, la probabilidad de que llueva no es afectada por la acción: <math>\mathrm P(R|do(G=T)) = P(R)</math>.
* [[Algoritmo de eliminación de variables]]


Si por otra aorte queremos predecir el impacto que tendrá encender el rociador, tenemos entoncs <math>P(R,G|do(S=T)) = P(R)P(G|R,S=T)</math> con el término <math>P(S=T|R)</math> eliminado, mostrando que la acción tiene efecto sobre la hierba pero no sobre la lluvia.
== Referencias ==
{{listaref}}


Estas predicciones no son factibles cuando alguna de las variables no son observadas, como en la mayoría de los problemas de evaluación. El efecto de la acción <math>do(x)</math> puede mantenerce predictivo, sin embargo, cada vez un criterio llamado "puerta trasera" es satisfecho.<ref name=pearl2000/> Los estados que, si un conjunto Z de nodos puede ser onservado que ''d''-separa (o bloquea) todos los caminos de "puestra trasera" desde ''X'' hasta ''Y'' entonces <math>P(Y,Z|do(x)) = P(Y,Z,X=x)/P(X=x|Z)</math>. Un camino de puestra trasera es uno que termina con una flecha hacia ''X''. Los conjuntos que satisfacen el criterio de puerta trasera son llamados "suficientes" o "admisibles". Por ejemplo, el conjunto ''Z=R'' es admisible para predecir el efecto de ''S=T'' sobre ''G'', porque ''R'' ''d''-separa el (único) camino de puerta trasera ''S?R?G''. Sin embargo, si ''S'' no es observado, no hay otro conjunto que ''d''-separe este camino y el efecto de encender los rociadores (''S=T'') sobre la hierba (''G'') no puede ser predecido desde observaciones pasivas. Nosotros entonces decimos que <math>P(G|do(S=T)) no estña identificado. Esto refleja el hecho de que, careciendo de datos intervencionales, no podemos determinar si la dependencia observada entre ''S'' y ''G'' es debido a una conexión casual o debido a una artificial creada por una causa común, ''R''. (ver [[paradoja de Simpson]])
== Software Libre y Abierto ==
* Toolbox para MatLab de Kevin Murphy: http://bnt.sourceforge.net/
* [http://leo.ugr.es/~elvira Elvira]: desarrollado por investigadores de universidades españolas.
* [http://www.dynamics.unam.edu/DinamicaNoLineal3/bansy3.htm BANSY3]. Laboratorio de Dinámica no Lineal, Departamento de Matemáticas, [[Facultad de Ciencias (UNAM)|Facultad de Ciencias]], [[UNAM]].
* GeNIe & SMILE: http://genie.sis.pitt.edu
* OpenBayes: http://www.openbayes.org
* RISO: http://sourceforge.net/projects/riso/ (distributed belief networks)
* SamIam: http://reasoning.cs.ucla.edu/samiam
* BN4R: http://bn4r.rubyforge.org/
* bnlearn R package: http://www.bnlearn.com/


Para determinar si una relación casual es identificada desde una red Bayesiana arbitraria con variables no obervadas, uno puede usar las tres reglas de "''do''-calculus"<ref name="pearl2000"/><ref name="pearl-r212">{{cite conference |url=http://dl.acm.org/ft_gateway.cfm?id=2074452&ftid=1062250&dwn=1&CFID=161588115&CFTOKEN=10243006 |title=A Probabilistic Calculus of Actions |first=Pearl |last=J. |year=1994 |editor1-first=R. |editor1-last=Lopez de Mantaras |editor2-first=D. |editor2-last=Poole |booktitle=UAI'94 Proceedings of the Tenth international conference on Uncertainty in artificial intelligence |publisher=Morgan Kaufman |location=San Mateo CA |pages=454–462 |isbn=1-55860-332-8 }}</ref> y probar si todos los términos ''do'' pueden ser eliminados de la expresión de la relación, así conforme que la cantidad deseada es estimable desde la frecuencia de datos.<ref>I. Shpitser, J. Pearl, "Identification of Conditional Interventional Distributions" In R. Dechter and T.S. Richardson (Eds.), ''Proceedings of the Twenty-Second Conference on Uncertainty in Artificial Intelligence'', 437-444, Corvallis, OR: AUAI Press, 2006.</ref>
== Software Comercial ==
* dVelox: http://www.aparasw.com/


Usar una red de Bayesian puede salvar las cantidades considerables de la memoria, si las dependencias en el reparto conjunto están escasas. Por ejemplo, una manera ingenua de guardar las probabilidades condicionales de 10 variables con dos valores como una tabla requiere el espacio de almacenamiento para <math>2^{10} = 1024</math> valores. Si las distribuciones locales de ninguna variable depende de más de 3 variables padre, la representación de la red de Bayesiana solamente tiene que almacenar a lo sumo <math>10*2^3 = 80</math> valores.
== Enlaces externos ==
* [http://www.auai.org/ Association for Uncertainty in Artificial Intelligence]


Una ventaja de las redes Bayesianas es que es intuitivamente más fácil para un ser humano comprender (un conjunto escaso de) dependencias directas y distribuciones locales que la distribución conjunta completa.

==Inferencia de y aprendizaje==

Hay tres tareas principales de inferencia para las redes bayesianas.

===Deducción de variables no observadas===

Debido a que una red bayesiana es un modelo completo de las variables y sus relaciones, se puede utilizar para responder a las consultas de probabilidad acerca de ellos. Por ejemplo, la red se puede utilizar para averiguar el conocimiento actualizado del estado de un subconjunto de variables cuando otras variables (las variables de ''evidencia'') se observan. Este proceso de cálculo de la distribución ''posterior'' de las variables dada la evidencia que se llama inferencia probabilística. La posterior da un [[suficiente estadístico]] universal para aplicaciones de detección, cuando se quiere elegir los valores para la variable de un subconjunto que minimizan alguna función de pérdida esperada, por ejemplo, la probabilidad de error de decisión. Una red bayesiana de esta manera, puede considerarse como un mecanismo para aplicar automáticamente el teorema de Bayes a problemas complejos.

Los métodos más comunes de inferencia exactas son: [[eliminación de variables]], el cual elimina (mediante integración o suma) las variables no observadas y no consultadas una por una mediante la distribución de la suma sobre el producto; [[propagación en un árbol clique]], que almacena en caché el cálculo de modo que muchas variables se pueden consultar en una vez y nueva evidencia se puede propagar rápidamente; y [[condicionamiento recursivo]] y [[búsqueda AND/OR]], que permiten un equilibrio espacio-tiempo y realiza eficientemente la eliminación de variables cuando se usa suficiente espacio. Todos estos métodos tienen una complejidad que es exponencial con respecto al ancho del árbol. Los algoritmos de inferencia aproximada más comunes son [[muestreo de importancia]], simulación estocástica MCMC (Markov Chain Monte Carlo), [[eliminación mini-cubo]], LBP (Loopy Belief Propagation), GBP (Generalized Belief Propagation), y los métodos variacionales.

===Aprendizaje de Parámetros===

Para especificar completamente la red bayesiana y por lo tanto representar plenamente a la distribución de probabilidad conjunta , es necesario especificar para cada nodo ''X'' la distribución de probabilidad de ''X'' condicionada dado sus padres. La distribución de ''X'' condicionada dado sus padres puede tener cualquier forma. Es común trabajar con distribuciones discretas o [[distribución normal|gaussianas]] ya que simplifica los cálculos. A veces sólo restricciones sobre una distribución son conocidas; uno puede entonces utilizar el [[principio de máxima entropía]] para determinar una distribución única. (Análogamente, en el contexto específico de una [[red bayesiana dinámica]], una que comúnmente especifica la distribución condicional para la evolución temporal del estado ocultos para maximizar la tasa de entropía del proceso estocástico implícito)
A menudo, estas distribuciones condicionales incluyen parámetros que son desconocidos y deben estimarse a partir de los datos, a veces utilizando el enfoque de [[máxima probabilidad]]. La maximización directa de la probabilidad (o de la [[probabilidad posterior]]) es a menudo compleja cuando hay variables no observadas. Un método clásico de este problema es el [[algoritmo de expectación-maximización]] el cual alterna los valores esperados computados de las variables condicionales no observadas a datos observados, con la maximización de la probabilidad total (o posterior) suponiendo que previamente calculados los valores esperados son correctas. Bajo condiciones de regularidad leves este proceso converge en valores de probabilidad máxima (o máximo posterior) para los parámetros.
Un enfoque más Bayesiano es tratar a los parámetros como variables no observadas adicionales y para calcular la distribución posterior completa sobre todos los nodos condicionales de los datos observados, después, integrar los parámetros. Este enfoque puede ser costoso y llevar a modelos de grandes dimensiones, por lo que en la práctica enfoques de ajuste de parámetros clásicos son más comunes.

===Aprendizaje de Estructuras===

En el caso más simple, una red bayesiana se especifica por un experto y se utiliza entonces para realizar inferencia. En otras aplicaciones, la tarea de definir la red es demasiado compleja para los seres humanos. En este caso la estructura de la red y los parámetros de las distribuciones locales debe ser aprendido de datos.

El aprendizaje automático de la estructura gráfica de una red bayesiana es un reto dentro del [[aprendizaje de máquina]]. La idea básica se remonta a un algoritmo de recuperación desarrollado por Rebane y Pearl (1987) <ref>Rebane, G. and Pearl, J., "The Recovery of Causal Poly-trees from Statistical Data," ''Proceedings, 3rd Workshop on Uncertainty in AI,'' (Seattle, WA) pages 222–228, 1987</ref> y se basa en la distinción entre los tres tipos posibles de triplos adyacentes permitidos en un gráfico acíclico dirigido (DAG):
<ol>
<li> <math>X \rightarrow Y \rightarrow Z</math>
<li> <math>X \leftarrow Y \rightarrow Z</math>
<li> <math>X \rightarrow Y \leftarrow Z</math>
</ol>

Tipo 1 y tipo 2 representan las mismas dependencias (<math>X</math> y <math>Z</math> son independientes dada <math>Y</math>) y son, por tanto, indistinguibles. Tipo 3, sin embargo, puede ser identificado de forma única, ya que <math>X</math> y <math>Z</math> son marginalmente independientes y todos los otros pares son dependientes. Así, mientras que los ''esqueletos'' (los grafos despojados de flechas) de estos tres triplos son idénticos, la direccionalidad de las flechas es parcialmente identificable. La misma distinción se aplica cuando <math>X</math> y <math>Z</math> tienen padres comunes, excepto que uno debe condicionar primero en esos padres. Se han desarrollado algoritmos para determinar sistemáticamente el esqueleto del grafo subyacente y, a continuación, orientar todas las flechas cuya direccionalidad está dictada por las independencias condicionales observados.<ref name=pearl2000>{{Cite book | first = Judea | last = Pearl | authorlink = Judea Pearl | title = Causality: Models, Reasoning, and Inference | publisher = [[Cambridge University Press]] | year = 2000 | isbn = 0-521-77362-8 }}</ref><ref>{{cite journal | first1=P. | last1=Spirtes | first2=C. | last2=Glymour | title=An algorithm for fast recovery of sparse causal graphs | journal=Social Science Computer Review | volume=9 | issue=1 | pages=62–72 | year=1991 | doi=10.1177/089443939100900106 | url=http://repository.cmu.edu/cgi/viewcontent.cgi?article=1316&context=philosophy | format=PDF}}</ref><ref>{{cite book | first1=Peter | last1=Spirtes | first2=Clark N. | last2=Glymour | first3=Richard | last3=Scheines |title=Causation, Prediction, and Search | url=http://books.google.com/books?id=VkawQgAACAAJ | year=1993 | publisher=Springer-Verlag |isbn=978-0-387-97979-3 | edition=1st}}</ref><ref>{{cite conference | url= | title=Equivalence and synthesis of causal models | first1=Thomas | last1=Verma | first2=Judea | last2=Pearl | year=1991 | editor1-first=P. | editor1-last=Bonissone | editor2-first=M. | editor2-last=Henrion | editor3-first=L.N. | editor3-last=Kanal | editor4-first=J.F. | editor4-last=Lemmer | booktitle=UAI '90 Proceedings of the Sixth Annual Conference on Uncertainty in Artificial Intelligence | publisher=Elsevier | pages=255–270 | isbn=0-444-89264-8 }}</ref>

Un método alternativo de aprendizaje estructural utiliza la optimización basada en búsquedas. Se requiere una [[función de puntuación]] y una [[estrategia de búsqueda]]. Una función de puntuación común es la [[probabilidad posterior]] de la estructura dado los datos de entrenamiento. El requisito de tiempo de una [[búsqueda exhaustiva]] retornando una estructura que maximice la puntuación es [[superexponencial]] en el número de variables. Una estrategia de búsqueda local hace cambios incrementales destinados a mejorar la puntuación de la estructura. Un algoritmo de búsqueda global como la [[cadena de Markov Monte Carlo]] puede evitar quedar atrapado en mínimos locales. Friedman et al. <ref>{{cite doi|10.1023/A:1007465528199}}</ref><ref>{{cite doi|10.1089/106652700750050961}}</ref> habla acerca del uso de la información mutua entre las variables y encontrar una estructura que maximiza esto. Lo hacen mediante la restricción del conjunto de padres candidatos a ''k'' nodos y exhaustivamente buscan en el mismo.



==Introducción estadística==
Dados los datos <math>x\,\!</math> y el parámetro <math>\theta</math>, Un simple [[estadística Bayesiana|análisis Bayesiano]] comienza con una [[probabilidad a priori]] (''antes'') <math>p(\theta)</math> y [[función de probabilidad | probabilidad]] <math>p(x|\theta)</math> para calcular una [[probabilidad posterior]] <math>p(\theta|x) \propto p(x|\theta)p(\theta)</math>.
A menudo, el ''antes'' en <math>\theta</math>, depende a su vez de otros parámetros <math>\varphi</math> que no se mencionan en la probabilidad. Por lo tanto, la ''previa'' <math>p(\theta)</math> debe ser sustituido por una probabilidad <math>p(\theta|\varphi)</math>, y un ''previo'' <math>\varphi</math> en los parámetros introducidos recientemente <math>\varphi</math> se requiere, lo que resulta en una probabilidad posterior
:<math>p(\theta,\varphi|x) \propto
p(x|\theta)p(\theta|\varphi)p(\varphi).</math>

Este es el ejemplo más simple de un ''modelo jerárquico Bayesiano''.
El proceso se puede repetir, por ejemplo, los parámetros <math>\varphi</math> pueden depender a su vez de parámetros adicionales <math>\psi\,\!</math>, lo que requerirá su propio ''previo''. Finalmente, el proceso debe terminar, con ''previos'' que no dependen de otros parámetros no se han mencionado.

===Ejemplos Introductorios===
Supongamos que hemos medido las cantidades <math>x_1,\dots,x_n\,\!</math> cada una con una [[distribución normal]] de los errores conocidos y [[desviación estándar]] <math>\sigma\,\!</math>,
:<math>
x_i \sim N(\theta_i, \sigma^2)
</math>

Supongamos que estamos interesados en estimar la <math>\theta_i</math>. Un enfoque sería estimar la <math>\theta_i</math> utilizando un enfoque de [[máxima verosimilitud]]; ya que las observaciones son independientes, la probabilidad factoriza y la estimación de máxima probabilidad es simplemente
:<math>
\theta_i = x_i
</math>

Sin embargo, si las cantidades están relacionados, de modo que por ejemplo se puede pensar que los <math>\theta_i</math> individuales han sido extraídos de una distribución subyacente, a continuación, esta relación destruye la independencia y sugiere un modelo más complejo, por ejemplo,
:<math>
x_i \sim N(\theta_i,\sigma^2),
</math>
:<math>
\theta_i\sim N(\varphi, \tau^2)
</math>

con ''previos'' inapropiados <math>\varphi\sim</math>plana, <math>\tau\sim</math>plano<math> \in (0,\infty)</math>. ¿Cuándo <math>n\ge 3</math>, este es un [[modelo identificado]] (es decir, existe una única solución para los parámetros del modelo), y la distribución posterior de la <math>\theta_i</math> individual tenderá a moverse o reducir la distancia de máxima verosimilitud estimada hacia su media común. Esta contracción es un comportamiento típico de los modelos jerárquicos bayesianos.

===Restricciones a los ''previos''===

Hay que tener algún cuidado al elegir los ''previos'' en un modelo jerárquico, en particular sobre las variables de escala en los niveles superiores de la jerarquía, como la variable <math>\tau\,\!</math> en el ejemplo. Los ''previos'' habituales, tales como los [[ previos de Jeffrey]] a menudo no funcionan, debido a que la distribución posterior será incorrecta (no normalizable), y estimaciones realizadas por reducir al mínimo la [[pérdida esperada]] será inadmisible .

==Definiciones y conceptos==

Hay varias definiciones equivalentes de una red bayesiana. Por todo lo siguiente, sea ''G'' = (''V'', ''E'') un [[gráfico acíclico dirigido]] (o DAG), y sea ''X'' = (''X''<sub>''v''</sub>)<sub>''v'' ? ''V''</sub> un conjunto de [[variable aleatoria | variables aleatorias]] indexadas por ''V''.

===Definición de factorización===

''X'' es una red bayesiana con respecto a ''G'' si su [[función de densidad de probabilidad]] conjunta (con respecto a una [[medida de producto]]) se puede escribir como un producto de las funciones de densidad individuales, condicionadas a las variables de sus padres:{{sfn|Russell|Norvig|2003|p=496}}
<math> p (x) = \prod_{v \in V} p \big(x_v \,\big|\, x_{\operatorname{pa}(v)} \big) </math>

donde pa(''v'') es el conjunto de padres de ''v'' (es decir, los vértices apuntando directamente a ''v'' a través de una sola arista).

Para cualquier conjunto de variables aleatorias, la probabilidad de cualquier miembro de una [[distribución conjunta]] se puede calcular a partir de las probabilidades condicionales utilizando la regla de la cadena (dado un ordenamiento topológico de ''X'') como sigue:{{sfn|Russell|Norvig|2003|p=496}}
<math>\mathrm P(X_1=x_1, \ldots, X_n=x_n) = \prod_{v=1}^n \mathrm P(X_v=x_v \mid X_{v+1}=x_{v+1}, \ldots, X_n=x_n )</math>

Compárese esto con la definición anterior, que puede ser escrita como:
<math>\mathrm P(X_1=x_1, \ldots, X_n=x_n) = \prod_{v=1}^n \mathrm P(X_v=x_v \mid X_j=x_j </math> por cada <math>X_j\,</math> el cual es padre de <math> X_v\, )</math>

La diferencia entre las dos expresiones es la independencia condicional de las variables de cualquiera de sus no-descendientes, dados los valores de las variables de sus padres.

===Propiedad local de Markov===
''X'' es una red bayesiana con respecto a ''V'' si satisface la ''propiedad local de Markov'': cada variable es [[independencia condicional | condicionalmente independiente]] de sus no-descendientes dado sus variables padres:{{sfn|Russell|Norvig|2003|p=499}}
:<math> X_v \perp\!\!\!\perp X_{V \setminus \operatorname{de}(v)} \,|\, X_{\operatorname{pa}(v)} \quad\text{for all }v \in V</math>
donde de(''v'') es el conjunto de descendientes de ''v''.

Esto también se puede expresar en términos similares a la primera definición, como
:<math>\mathrm P(X_v=x_v \mid X_i=x_i </math> para cada <math>X_i\,</math> la cual no es descendiente de <math> X_v\, ) = P(X_v=x_v \mid X_j=x_j </math> para cada <math>X_j\,</math> que es padre de <math> X_v\, )</math>

Tenga en cuenta que el conjunto de los padres es un subconjunto del conjunto de los no descendientes porque el grafo es acíclico.

===Desarrollo de redes bayesianas===

Desarrollar una red bayesiana, que a menudo se desarrolla primero un DAG ''G'' tal que creemos que ''X'' satisface la propiedad local de Markov con respecto a ''G''. A veces esto se hace creando un DAG casual. A continuación, determinar las distribuciones de probabilidad condicional de cada variable dados sus padres en ''G''. En muchos casos, en particular en el caso donde las variables son discretas, si se define la distribución conjunta de ''X'' como el producto de las distribuciones condicionales, entonces ''X'' es una red bayesiana con respecto a ''G''. <ref>{{cite book |first=Richard E. |last=Neapolitan |title=Learning Bayesian networks |url=http://books.google.com/books?id=OlMZAQAAIAAJ |year=2004 |publisher=Prentice Hall |isbn=978-0-13-012534-7 }}</ref>

===Manta de Markov===

La [[manta de Markov]] de un nodo es el conjunto de nodos vecinos: sus padres, sus hijos y otros padres de sus hijos. ''X'' es una red bayesiana con respecto a ''G'' si cada nodo es condicionalmente independiente de todos los demás nodos de la red, dada su [[manta Markov]].{{sfn|Russell|Norvig|2003|p=499}}

===''d''-separación===

Esta definición puede ser más general mediante la definición de la "d" de separación de dos nodos, donde d es direccional. <ref>{{cite journal|last=Geiger |first=Dan |last2=Verma |first2=Thomas |last3=Pearl |first3=Judea |title=Identifying independence in Bayesian Networks |journal=Networks |year=1990 |volume=20 |pages=507–534 |doi=10.1177/089443939100900106 |url=http://ftp.cs.ucla.edu/pub/stat_ser/r116.pdf |format=PDF}}</ref><ref>{{citation |author=Richard Scheines|title=D-separation|url=http://www.andrew.cmu.edu/user/scheines/tutor/d-sep.html}}</ref> Sea ''P'' un camino (es decir, una colección de aristas, que es como un camino, pero cada una de cuyas aristas pueden tener cualquier dirección) de un nodo de ''u'' a ''v''. Entonces ''P'' se dice que es ''d''-separado por un conjunto de nodos ''Z'' si y sólo si (al menos) uno de cumple lo siguiente:
#''P'' contiene una ''cadena'', ''x'' -> ''m'' -> ''y'', de manera tal que el nodo medio de ''m'' está en ''Z'',
#''P'' contiene una ''cadena'', ''x'' <- ''m'' <- ''y'', de manera tal que el nodo medio de ''m'' está en ''Z'',
#''P'' contiene un ''tenedor'', ''x'' <- ''m'' -> ''y'', de manera tal que el nodo medio de ''m'' está en ''Z'', o
#''P'' contiene un ''tenedor'' invertido (o acelerador), ''x'' -> ''m'' <- ''y'', de manera tal que el nodo medio de ''m'' '''no''' está en ''Z'' y el no descendiente de m está en ''Z''.

Así, ''u'' y ''v'' se dice que están ''d''-separados por ''Z'' si todas las rutas entre ellos son ''d''-separados. Si ''U'' y ''V'' no son ''d''-separados, se les llama ''d''-conectado.

''X'' es una red bayesiana con respecto a ''G'' si, para cualquier par de nodos ''u'', ''v'':
:<math>X_u \perp\!\!\!\perp X_v \, | \, X_Z</math>
donde ''Z'' es un conjunto que ''d''-separa ''u'' y ''v''. (La [[manta de Markov]] es el conjunto mínimo de nodos que ''d''-separa al nodo ''v'' de todos los demás nodos)

===Modelos Jerárquicos===

El término ''modelo jerárquico'' a veces se considera un tipo particular de red Bayesiana, pero no tiene una definición formal. A veces el término se reserva para los modelos con tres o más niveles de las variables aleatorias, en otras ocasiones, se reserva para los modelos con variables latentes. En general, sin embargo, cualquier red Bayesiana moderadamente compleja suele llamarse "jerárquica".

===Redes Causales===

Aunque las redes Bayesianas se utilizan a menudo para representar relaciones [[causlidad | causales]], esto no tiene por qué ser el caso: una arista dirigida de ''u'' a ''v'' no requiere que ''X<sub>v</sub>'' sea causalmente dependiente de ''X<sub>u</sub>''. Esto se demuestra por el hecho de que las redes Bayesianas en los grafos:

:<math> a \longrightarrow b \longrightarrow c \qquad \text{and}
\qquad a \longleftarrow b \longleftarrow c </math>

son equivalentes, es decir imponen exactamente los mismos requisitos de independencia condicional.

Una [[red causal]] es una red Bayesiana con un requisito explícito de que la relación sea causal. Las semánticas adicionales de las redes causales especifican que si un nodo ''X'' está activamente causado a estar en un estado dado ''x'' (una acción escrita como lo hacen (''X''=''x'')), entonces la probabilidad de cambios de la función de densidad a la de la red obtenida por cortar los vínculos de los padres de ''X'' a ''X'', y el seteando ''X'' al valor causada ''x''. <ref name=pearl2000/> El uso de estas semánticas, se puede predecir el impacto de las intervenciones externas de los datos obtenidos antes de la intervención.

==Aplicaciones==

Las redes Bayesianas se utilizan para el [[modelado]] del conocimiento en [[biología]] computacional y [[bioinformática]] ([[redes reguladoras de genes]], la [[estructura de la proteína]], la [[expresión de genes]] de análisis, <ref name="geneexpr">{{cite journal | author= N. Friedman, M. Linial, I. Nachman, D. Pe'er |title= Using Bayesian Networks to Analyze Expression Data | journal= [[Journal of Computational Biology]]|publisher= [[Mary Ann Liebert, Inc.]]| location = [[Larchmont, New York]] |issn= 1066-5277| volume= 7 | issue = 3/4 | pages= 601–620| year= 2000| month=August |doi= 10.1089/106652700750050961 | pmid= 11108481}}</ref> el aprendizaje de epistasis a partir de los conjuntos de datos de GWAS <ref>{{cite journal |author=Jiang, X.; Neapolitan, R.E.; Barmada, M.M.; Visweswaran, S. |title=Learning Genetic Epistasis using Bayesian Network Scoring Criteria |journal=BMC Bioinformatics |volume=12 |issue= |pages=89 |year=2011 |pmid=21453508 |pmc=3080825 |url=http://www.biomedcentral.com/1471-2105/12/89 |doi=10.1186/1471-2105-12-89}}</ref> ), la [[medicina]], <ref name="Uebersax2004">{{Cite book|author = J. Uebersax|year = 2004|title = Genetic Counseling and Cancer Risk Modeling: An Application of Bayes Nets|publisher = Ravenpack International|location = Marbella, Spain|url = http://www.john-uebersax.com/stat/bayes_net_breast_cancer.doc}}</ref> [[biomonitoreo]] , <ref>{{cite journal |author=Jiang X, Cooper GF. |title=A Bayesian spatio-temporal method for disease outbreak detection |journal=J Am Med Inform Assoc |volume=17 |issue=4 |pages=462–71 |date=July–August 2010 |pmid=20595315 |pmc=2995651 |url=http://jamia.bmj.com/cgi/pmidlookup?view=long&pmid=20595315 |doi=10.1136/jamia.2009.000356}}</ref> la [[clasificación de documentos]] , [[recuperación de información]] , <ref name="infpro">{{ cite journal | author=Luis M. de Campos, Juan M. Fernández-Luna and Juan F. Huete|title=Bayesian networks and information retrieval: an introduction to the special issue | journal=Information Processing & Management|publisher=Elsevier| isbn=0-471-14182-8| volume=40 | pages=727–733| year=2004| doi=10.1016/j.ipm.2004.03.001 | issue=5}}</ref> la [[búsqueda semántica]], <<ref>Christos L. Koumenides and Nigel R. Shadbolt. 2012. [http://eprints.soton.ac.uk/342220 Combining link and content-based information in a Bayesian inference model for entity search.] In Proceedings of the 1st Joint International Workshop on Entity-Oriented and Semantic Search (JIWES '12). ACM, New York, NY, USA, , Article 3 , 6 pages. [http://doi.acm.org/10.1145/2379307.2379310 DOI=10.1145/2379307.2379310] </ref> el [[procesamiento de imágenes]], [[fusión de datos]], [[sistemas de soporte de decisiones]], <ref name="Diez1997">{{Cite journal | author = F.J. Díez, J. Mira, E. Iturralde and S. Zubillaga | title = DIAVAL, a Bayesian expert system for echocardiography | journal = Artificial Intelligence in Medicine | volume = 10 | publisher=Elsevier | pages=59–73| year=1997 | pmid = 9177816 | url=http://www.cisiad.uned.es/papers/diaval.php | issue=1}}</ref> la [[ingeniería]] , los [[teoría de juegos | juegos]] y la [[ley]].<ref name="davis">{{cite journal | author=G. A. Davis | title=Bayesian reconstruction of traffic accidents | journal=Law, Probability and Risk | year=2003 | volume=2 | pages=69–89 | doi=10.1093/lpr/2.2.69 | issue=2}}</ref><ref name=kadane>{{ cite book | author=J. B. Kadane and D. A. Schum | title=A Probabilistic Analysis of the Sacco and Vanzetti Evidence|location=New York|publisher=Wiley|isbn=0-471-14182-8 | year=1996 }}</ref><ref>{{Cite book|author = O. Pourret, P. Naim and B. Marcot|year = 2008|title = Bayesian Networks: A Practical Guide to Applications|publisher = Wiley|location = Chichester, UK|isbn = 978-0-470-06030-8|url = http://www.wiley.com/go/pourret}}</ref>

===Software===
* [[WinBUGS]]
* [[OpenBUGS]] ([http://www.openbugs.info/w/FrontPage website]), (código abierto) desarrollo adicional de WinBUGS.
* [[Just another Gibbs sampler]] (JAGS) ([http://www-fis.iarc.fr/~martyn/software/jags/ website]).
* GeNIe&Smile ([http://genie.sis.pitt.edu/ website]) — SMILE es una librería de C++ para BN e ID, y GeNIe es una GUI para ella.
* SamIam ([http://reasoning.cs.ucla.edu/samiam/ website]), otra GUI usando la librería SMILE.
* Redes de Creencia y de Desición en [http://www.aispace.org/bayes/index.shtml AIspace].
* [http://www.hugin.com/ Hugin].
* [http://www.norsys.com/netica.html Netica] por Norsys.
* [http://www.aparasw.com/index.php/en dVelox] por Apara Software.

==History==
El término "redes bayesianas" fue acuñado por [[Judea Pearl]] en 1985 para hacer hincapié en tres aspectos: <ref>{{cite conference |last=Pearl |first=J. |authorlink=Judea Pearl |year=1985 |title=Bayesian Networks: A Model of Self-Activated Memory for Evidential Reasoning |conference=Proceedings of the 7th Conference of the Cognitive Science Society, University of California, Irvine, CA |pages=329&ndash;334 |url=http://ftp.cs.ucla.edu/tech-report/198_-reports/850017.pdf|accessdate=2009-05-01 |format=UCLA Technical Report CSD-850017}}</ref>
# El carácter a menudo subjetivo de la información de entrada.
# La dependencia de acondicionamiento de Bayes como base para la actualización de la información.
# La distinción entre los modos causales y probatorio de razonamiento, lo que subraya [[Thomas Bayes]] en un documento publicado póstumamente en 1763. <ref>{{Cite journal |last=Bayes |first=T. |authorlink=Thomas Bayes |year=1763 |title = [[An Essay towards solving a Problem in the Doctrine of Chances]] |journal = [[Philosophical Transactions of the Royal Society of London]] |volume = 53 |pages = 370–418 |doi = 10.1098/rstl.1763.0053 |last2=Price |first2=Mr.}}</ref>

A finales de 1980 los textos seminales ''Razonamiento Probabilístico en Sistemas Inteligentes'' <ref>{{cite book |last=Pearl |first=J. |title=Probabilistic Reasoning in Intelligent Systems |publisher=Morgan Kaufmann |location=San Francisco CA |year= |isbn=1558604790 |pages=1988 |url=http://books.google.com/books?id=AvNID7LyMusC}}</ref> y ''Razonamiento Probabilístico en Sistemas Expertos'' <ref>{{cite book |first=Richard E. |last=Neapolitan |title=Probabilistic reasoning in expert systems: theory and algorithms |url=http://books.google.com/books?id=-KtQAAAAMAAJ |year=1989 |publisher=Wiley |isbn=978-0-471-61840-9}}</ref> resume las propiedades de las redes Bayesianas y ayudó a establecer las mismas como un campo de estudio.

Variantes informales de este tipo de redes se utilizaron por primera vez por el [[jurista]] [[John Henry Wigmore]], en forma de [[grafos de Wigmore]], para analizar la evidencia en un juicio en 1913. <ref name=kadane/>{{Rp|66–76|date=May 2009}} Otra variante, llamada [[diagramas de rutas | diagrama de rutas]], fue desarrollada por el genetista [[Sewall Wright]] <ref>{{cite journal |last=Wright |first=S. |authorlink=Sewall Wright |year=1921 |title=Correlation and Causation |journal=Journal of Agricultural Research |volume=20 |issue=7 |pages=557–585 |url=http://www.ssc.wisc.edu/soc/class/soc952/Wright/Wright_Correlation%2and%20Causation.pdf |format=PDF}}</ref> y utilizado en [[ciencias de la conducta]] y [[ciencias sociales | sociales]] (en su mayoría con modelos paramétricos lineales).

==Vea también==

{{Portal|Inteligencia Artificial|Estadísticas}}
{{columns-list|2|width=95%|
*[[Inteligencia Artificial]]
*[[Teorema de Bayes]]
*[[Teoría de Dempster–Shafer]] – una generalización del Teorema de Bayes
*[[Inferencia Bayesiana]]
*[[Probabilidad Bayesiana]]
*[[Propagación de Creencia]]
*[[Árbol Chow-Liu]]
*[[Inteligencia Computacional]]
*[[Filogenética Computacional]]
*[[Red Bayesiana Dinámica]]
*[[Algoritmo Espectación-Maximización]]
*[[Modelo gráfico]]
*[[Memoria temporal jerárquica]]
*[[Diagrama de influencia]]
*[[Judea Pearl]]
*[[Filtro de Kalman]]
*[[Aprendizaje de Máquina]]
*[[Densidad de mezcla]]
*[[Modelo de mezcla]]
*[[Marco de trabajo de predicción de memoria]]
*[[Clasificador ingenuo de Bayes]]
*[[Análisis de caminos (estadísticas)|Análisis de caminos]]
*[[Poliárbol]]
*[[Fusión sensorial]]
*[[Alineación de secuencias]]
*[[Reconocimiento de voz]]
*[[Modelo de ecuaciones extructurales]]
*[[Lógica subjetiva]]
*[[Red Bayesiana de orden variable]]
*[[Grafo de Wigmore]]
*[[Visión mundial]]
}}

==Notas==

{{Reflist|2}}

==Referencias generales==
* {{cite encyclopedia |last= Ben-Gal |first= Irad |editor= Ruggeri, Fabrizio; Kennett, Ron S.; Faltin, Frederick W |encyclopedia= Encyclopedia of Statistics in Quality and Reliability |title= Encyclopedia of Statistics in Quality and Reliability|url=http://www.eng.tau.ac.il/~bengal/BN.pdf |format=PDF |year= 2007 |publisher= [[John Wiley & Sons]] |isbn= 978-0-470-01861-3 |doi= 10.1002/9780470061572.eqr089 |chapter= Bayesian Networks}}
*{{cite book |last1= Bertsch McGrayne|first1= Sharon |title= The Theory That Would not Die|publisher= [[Yale]] }}
*{{cite book |last1= Borgelt|first1= Christian|last2= Kruse|first2= Rudolf |title= Graphical Models: Methods for Data Analysis and Mining |url= http://fuzzy.cs.uni-magdeburg.de/books/gm/ |year= 2002|month= March |publisher= [[John Wiley & Sons|Wiley]] |location= [[Chichester|Chichester, UK]] |isbn= 0-470-84337-3}}
*{{cite encyclopedia |last= Borsuk |first= Mark Edward |editor= [[Sven Erik Jørgensen|Jørgensen , Sven Erik]], Fath, Brian |encyclopedia= Encyclopedia of Ecology |title= Ecological informatics: Bayesian networks |year= 2008| publisher= Elsevier|isbn= 978-0-444-52033-3}}
*{{cite book |last1=Castillo|first1=Enrique|last2=Gutiérrez |first2=José Manuel |last3=Hadi |first3=Ali S. |title= Expert Systems and Probabilistic Network Models |series= Monographs in computer science |volume= |year= 1997 |publisher= [[Springer Science+Business Media|Springer-Verlag]]|location=New York |isbn= 0-387-94858-9|pages= 481–528 |chapter= Learning Bayesian Networks}}
*{{Cite book | last=Comley | first =Joshua W. |author2=[http://www.csse.monash.edu.au/~dld Dowe, David L.] | year = October 2003 | chapter = Minimum Message Length and Generalized Bayesian Nets with Asymmetric Languages | chapter-url = http://www.csse.monash.edu.au/~dld/David.Dowe.publications.html#ComleyDowe2005 | editor-last = Grünwald | editor-first = Peter D.| editor2-last = Myung | editor2-first = In Jae | editor3-last = Pitt| editor3-first = Mark A. | title = Advances in Minimum Description Length: Theory and Applications | series=Neural information processing series | place = [[Victoria (Australia)|Victoria, Australia]]| publication-place = [[Cambridge, Massachusetts]] | publisher = Bradford Books ([[MIT Press]])| publication-date = April 2005 | pages = 265–294 |isbn = 0-262-07262-9}} (This paper puts [[Decision tree learning|decision tree]]s in internal nodes of Bayes networks using [http://www.csse.monash.edu.au/~dld/MML.html Minimum Message Length] ([[Minimum message length|MML]]). An earlier version is [http://www.csse.monash.edu.au/~dld/David.Dowe.publications.html#ComleyDowe2003 Comley and Dowe (2003)], [http://www.csse.monash.edu.au/~dld/Publications/2003/Comley+Dowe03_HICS2003_GeneralBayesianNetworksAsymmetricLanguages.pdf])
<!-- cite templates don't work for this one! -->
* Dowe, David L. (2010). [http://www.csse.monash.edu.au/~dld/Publications/2010/Dowe2010_MML_HandbookPhilSci_Vol7_HandbookPhilStat_MML+hybridBayesianNetworkGraphicalModels+StatisticalConsistency+InvarianceAndUniqueness_pp901-982.pdf MML, hybrid Bayesian network graphical models, statistical consistency, invariance and uniqueness], in Handbook of Philosophy of Science (Volume 7: Handbook of Philosophy of Statistics), Elsevier, [http://japan.elsevier.com/products/books/HPS.pdf ISBN 978-0-444-51862-0], pp [http://www.csse.monash.edu.au/~dld/Publications/2010/Dowe2010_MML_HandbookPhilSci_Vol7_HandbookPhilStat_MML+hybridBayesianNetworkGraphicalModels+StatisticalConsistency+InvarianceAndUniqueness_pp901-982.pdf 901-982].
* Fenton, Norman; Neil, Martin E. (November 2007). ''[http://www.agenarisk.com/resources/apps_bayesian_networks.pdf Managing Risk in the Modern World: Applications of Bayesian Networks]'' – A Knowledge Transfer Report from the London Mathematical Society and the Knowledge Transfer Network for Industrial Mathematics. [[London|London (England)]]: [[London Mathematical Society]].
*{{cite news |first= Norman|last= Fenton | first2= Martin E. |last2= Neil | title= Combining evidence in risk analysis using Bayesian Networks |url= https://www.dcs.qmul.ac.uk/~norman/papers/Combining%20evidence%20in%20risk%20analysis%20using%20BNs.pdf |format= PDF |work= Safety Critical Systems Club Newsletter |volume=13 |issue=4 |location= [[Newcastle upon Tyne]], England | pages= 8–13| date= July 23, 2004}}
*{{cite book |author1=Andrew Gelman |author2=John B Carlin |author3=Hal S Stern |coauthors=Donald B Rubin |title=Bayesian Data Analysis |chapter=Part II: Fundamentals fo Bayesian Data Analysis: Ch.5 Hierachical models |chapterurl=http://books.google.com/books?id=TNYhnkXQSjAC&pg=PA120 |year=2003 |publisher=CRC Press |isbn=978-1-58488-388-3 |pages=120– |url=http://books.google.com.au/books?id=TNYhnkXQSjAC}}
* {{Cite book| last = Heckerman | first =David | date = March 1, 1995 | contribution = Tutorial on Learning with Bayesian Networks | contribution-url = http://research.microsoft.com/research/pubs/view.aspx?msr_tr_id=MSR-TR-95-06 | editor-last = Jordan | editor-first = Michael Irwin | title = Learning in Graphical Models | series = Adaptive Computation and Machine Learning | publication-place = [[Cambridge, Massachusetts]] | publication-date = 1998 | publisher = [[MIT Press]] | pages = 301–354 | isbn = 0-262-60032-3}}. :También aparece como {{cite journal |year= 1997|month= March |title= Bayesian Networks for Data Mining |journal= [[Data Mining and Knowledge Discovery]]|volume= 1| issue= 1 |pages= 79–119 |publisher= [[Springer Science+Business Media|Springer Netherlands]] |location= [[Netherlands]] |issn= 1384-5810|doi= 10.1023/A:1009730122752 |last1= Heckerman |first1= David}}:Una versión reciente aparece como [http://research.microsoft.com/research/pubs/view.aspx?msr_tr_id=MSR-TR-95-06 Technical Report MSR-TR-95-06], Microsoft Research, March 1, 1995. The paper is about both parameter and structure learning in Bayesian networks.
* {{Cite book| last=Jensen |first=Finn V| last2=Nielsen | first2 = Thomas D. | title = Bayesian Networks and Decision Graphs|edition=2nd |series=Information Science and Statistics series | publisher = [[Springer Science+Business Media|Springer-Verlag]] |location=[[New York]] | date = June 6, 2007| isbn=978-0-387-68281-5}}
* {{Cite book| last=Korb| first=Kevin B.|last2 = Nicholson|first2 = Ann E. | title = Bayesian Artificial Intelligence | edition = 2nd | address = [[Boca Raton, Florida]] | publisher = [[Chapman & Hall]] ([[CRC Press]]) | date = December 2010 | isbn = 1-58488-387-1 | series=CRC Computer Science & Data Analysis | doi=10.1007/s10044-004-0214-5}}
* {{Cite journal |last=Lunn |first=D. |last2=''et al.'' |first2=D |year=2009 |last3=Thomas |first3=A |last4=Best |first4=N |title=The BUGS project: Evolution, critique and future directions |journal=Statistics in Medicine |volume=28 |pmid=19630097 |issue=25 |pages=3049–3067 |doi=10.1002/sim.3680 }}
* {{cite journal |last= Neil |first= Martin |last2 = Fenton|first2= Norman E.|last3= Tailor|first3= Manesh |year= 2005 |month= August |title=Using Bayesian Networks to Model Expected and Unexpected Operational Losses |editor = Greenberg, Michael R. |journal= [[Society for Risk Analysis|Risk Analysis: an International Journal]] |volume= 25 |issue= 4 |pages= 963–972 |publisher= [[John Wiley & Sons]] |doi= 10.1111/j.1539-6924.2005.00641.x |url= http://www.dcs.qmul.ac.uk/~norman/papers/oprisk.pdf|format= pdf |pmid= 16268944}}
* {{cite journal |last= Pearl|first= Judea |authorlink= Judea Pearl |year= 1986 |month= September |title= Fusion, propagation, and structuring in belief networks |journal= [[Artificial Intelligence (journal)|Artificial Intelligence]]|volume= 29 |issue= 3 |pages= 241–288|publisher= [[Elsevier]] |issn= 0004-3702 |doi= 10.1016/0004-3702(86)90072-X}}
* {{Cite book | last = Pearl|first=Judea|authorlink = Judea Pearl |title = Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference |edition = 2nd printing|publisher = [[Morgan Kaufmann]] |location= [[San Francisco, California]] |year = 1988 |isbn = 0-934613-73-7 | series=Representation and Reasoning Series}}
* {{Cite book|last=Pearl|first=Judea|authorlink=Judea Pearl |last2=Russell |first2=Stuart |authorlink2=Stuart J. Russell |contribution=Bayesian Networks |editor-last=Arbib |editor-first=Michael A.|editor-link=Michael A. Arbib |title=Handbook of Brain Theory and Neural Networks |pages=157–160 |publication-place=[[Cambridge, Massachusetts]]| year=2002 | month=November | publisher = Bradford Books ([[MIT Press]]) | isbn=0-262-01197-2}}
* {{Russell Norvig 2003}}.
* {{Cite journal|author=[http://www.cs.ust.hk/faculty/lzhang/bio.html Zhang, Nevin Lianwen]|author2 = [http://www.cs.ubc.ca/spider/poole/ Poole, David]| title = A simple approach to Bayesian network computations |journal = Proceedings of the Tenth Biennial Canadian Artificial Intelligence Conference (AI-94).| location = [[Banff, Alberta]] | year = 1994 | month = May | pages = 171–178}} This paper presents variable elimination for belief networks.

==Enlaces Externos==
*[http://research.microsoft.com/research/pubs/view.aspx?msr_tr_id=MSR-TR-95-06 Un tutorial sobre el aprendizaje con redes Bayesianas]
*[http://www.niedermayer.ca/papers/bayesian/bayes.html Una Introducción a las Redes Bayesianas y sus aplicaciones contemporáneas]
*[http://www.dcs.qmw.ac.uk/%7Enorman/BBNs/BBNs.htm Tutorial on-line sobre redes bayesianas y probabilidad]
*[http://robotics.stanford.edu/~nodelman/papers/ctbn.pdf Redes Bayesianas en Tiempo Continuo]
*[http://wiki.syncleus.com/index.php/DANN:Bayesian_Network Redes Bayesianas: Explicación y Analogía]
*[http://videolectures.net/kdd07_neapolitan_lbn/ Un tutorial en vivo en el aprendizaje de redes bayesianas]
*[http://www.biomedcentral.com/1471-2105/7/514/abstract Un modelo jerárquico de Bayes para la manipulación de heterogeneidad de la muestra en problemas de clasificación], proporciona un modelo de clasificación teniendo en cuenta la incertidumbre asociada a la medición de muestras replicadas.
*[http://www.labmedinfo.org/download/lmi339.pdf Hierarchical Modelo Jerárquico Injenuo de Bayes para el manejo de las muestras de incertidumbre], muestra cómo realizar la clasificación y el aprendizaje con las variables continuas y discretas con mediciones replicadas.

{{DEFAULTSORT:Bayesian Network}}
[[Categoría:Estadística bayesiana]]
[[Categoría:Estadística bayesiana]]
[[Categoría:Modelos estadísticos]]
[[Categoría:Modelos estadísticos]]
[[Categoría:Inteligencia artificial]]
[[Categoría:Inteligencia artificial]]


[[ar:شبكة بايزية]]
[[ar:???? ??????]]
[[ca:Xarxa bayesiana]]
[[ca:Xarxa bayesiana]]
[[de:Bayessches Netz]]
[[de:Bayessches Netz]]
[[en:Bayesian network]]
[[en:Bayesian Network]]
[[fa:شبکه‌های بیزی]]
[[fa:???????? ????]]
[[fi:Bayes-verkko]]
[[fr:Réseau bayésien]]
[[fr:Réseau bayésien]]
[[ko:??? ????]]
[[he:רשת בייסיאנית]]
[[it:Reti Bayesiane]]
[[it:Reti Bayesiane]]
[[he:??? ?????????]]
[[ja:ベイジアンネットワーク]]
[[ko:베이즈 네트워크]]
[[nl:Probabilistisch netwerk]]
[[nl:Probabilistisch netwerk]]
[[ja:???????????]]
[[no:Bayesiansk nettverk]]
[[no:Bayesiansk nettverk]]
[[pl:Sieć bayesowska]]
[[pl:Siec bayesowska]]
[[pt:Rede bayesiana]]
[[pt:Rede bayesiana]]
[[ro:Rețea bayesiană]]
[[ro:Re?ea bayesiana]]
[[ru:Байесовская сеть]]
[[ru:??????????? ????]]
[[simple:Bayesian network]]
[[simple:Bayesian network]]
[[su:Jaringan Bayes]]
[[su:Jaringan Bayes]]
[[fi:Bayes-verkko]]
[[uk:Баєсова мережа]]
[[vi:Mạng Bayes]]
[[uk:??????? ??????]]
[[zh:貝氏網路]]
[[vi:M?ng Bayes]]
[[zh:????]]

Revisión del 22:17 20 dic 2012

Una red Bayesiana simple. Influencia de la lluvia si el rociador está activado e influencia de la lluvia y el rociador si la hierba se encuentra húmeda.

Una red Bayesiana, red de Bayes, red de creencia, modelo Bayesiano (de Bayes) o modelo probabilístico en un gráfico acíclico dirigido es un modelo gráfico probabilístico (un tipo de modelo estático) que representa un conjunto de variables aleatorias y sus dependencia condicional a través de ungráfico acíclico dirigido (DAG por sus siglas en inglés). Por ejemplo, una red Bayesiana puede representar las relaciones probabilísticas entre enfermedades y síntomas. Dados los síntomas, la red puede ser usada para computar las probabilidad de la presencia de varias enfermedades.

Formalmente, las redes Bayesianas son grafos dirigidos acíclicos cuyos nodos representan variables aleatorias en el sentido de Bayes: las mismas pueden se cantidades observables, variables latentes, parámetros desconocidos o hipótesis. Las aristas representan dependencias condicionales; los nodos que nos se encuantran conectados representan variables las cuales son condicionalmente independientes de las otras. Cada nodo tiene asociado una función de probabilidad que toma como entrada un conjunto particular de valores de las variables padres del nodo y devuelve la probabilidad de la variable representada por el nodo. Por ejemplo, si por padres son variables booleanas entonces la función de probabilidad puede ser representada por una tabla de entradas, una entrada para cada una de las posibles combinaciones de los padres siendo verdadero o falso. Ideas similares pueden ser aplicadas a grafos no dirigidos, y posiblemente cíclicos; como son las llamadas redes de Markov.

Existen algoritmos eficientes que llevan a cabo la inferencia y el aprendizaje en redes Bayesianas. Las redes Bayesianas que modelan secuencias de variables (ej señales del habla o secuencias de proteínas) son llamadas redes Bayesianas dinámicas. Las generalizaciones de las redes Bayesianas que pueden representar y resolver problemas de desición bajo incertidumbre son llamados diagramas de influencia.

Ejemplo

Una red Bayesiana simple.

Supongamos que hay dos eventos los cuales pueden causar que la hierba esté húmeda: que el rociador esté activado o que esté lloviendo. También supongamos que la lluvia tiene un efecto directo sobre el uso del rociador (usualmente cuando llueve el rociador se encuentra apagado). Entonces la situación puede ser modelada con una red Bayesiana (como hemos visto). Las tres variables tienen dos posibles valores, T (para verdadero) y F (para falso).

La función de probabilidad conjunta es:

donde los nombres de las variables han sido abreviados a G = Hierba húmeda, S = Rociador activado, y R = Lloviendo.

El modelo puede responder preguntas como "¿Cuál es la probabilidad de que esté lloviendo dado que la hierba está húmeda?" usando la fórmula de probalididad condicional y sumando sobre todas las variables incordias:

::

Como está señalado explícitamente en el numerador del ejemplo, la función de probabilidad conjunta es usada para calcular cada iteración de la función de sumatoria, marginalizando sobre en el numerator and sobre y en el denominator.

Si, por otra parte, deseamor responder una presgunta intermedia: "¿Cuál es la probabilidad de que llueva dado que la hierba está húmeda?" la respuesta puede ser dada por la post-intervención de la función de distribución conjunta obtenida removiendo el factor de la distribución de pre-intervención. Como era de esperarse, la probabilidad de que llueva no es afectada por la acción: .

Si por otra aorte queremos predecir el impacto que tendrá encender el rociador, tenemos entoncs con el término eliminado, mostrando que la acción tiene efecto sobre la hierba pero no sobre la lluvia.

Estas predicciones no son factibles cuando alguna de las variables no son observadas, como en la mayoría de los problemas de evaluación. El efecto de la acción puede mantenerce predictivo, sin embargo, cada vez un criterio llamado "puerta trasera" es satisfecho.[1]​ Los estados que, si un conjunto Z de nodos puede ser onservado que d-separa (o bloquea) todos los caminos de "puestra trasera" desde X hasta Y entonces . Un camino de puestra trasera es uno que termina con una flecha hacia X. Los conjuntos que satisfacen el criterio de puerta trasera son llamados "suficientes" o "admisibles". Por ejemplo, el conjunto Z=R es admisible para predecir el efecto de S=T sobre G, porque R d-separa el (único) camino de puerta trasera S?R?G. Sin embargo, si S no es observado, no hay otro conjunto que d-separe este camino y el efecto de encender los rociadores (S=T) sobre la hierba (G) no puede ser predecido desde observaciones pasivas. Nosotros entonces decimos que Error al representar (error de sintaxis): {\displaystyle P(G|do(S=T)) no estña identificado. Esto refleja el hecho de que, careciendo de datos intervencionales, no podemos determinar si la dependencia observada entre ''S'' y ''G'' es debido a una conexión casual o debido a una artificial creada por una causa común, ''R''. (ver [[paradoja de Simpson]]) Para determinar si una relación casual es identificada desde una red Bayesiana arbitraria con variables no obervadas, uno puede usar las tres reglas de "''do''-calculus"<ref name="pearl2000"/><ref name="pearl-r212">{{cite conference |url=http://dl.acm.org/ft_gateway.cfm?id=2074452&ftid=1062250&dwn=1&CFID=161588115&CFTOKEN=10243006 |title=A Probabilistic Calculus of Actions |first=Pearl |last=J. |year=1994 |editor1-first=R. |editor1-last=Lopez de Mantaras |editor2-first=D. |editor2-last=Poole |booktitle=UAI'94 Proceedings of the Tenth international conference on Uncertainty in artificial intelligence |publisher=Morgan Kaufman |location=San Mateo CA |pages=454–462 |isbn=1-55860-332-8 }}</ref> y probar si todos los términos ''do'' pueden ser eliminados de la expresión de la relación, así conforme que la cantidad deseada es estimable desde la frecuencia de datos.<ref>I. Shpitser, J. Pearl, "Identification of Conditional Interventional Distributions" In R. Dechter and T.S. Richardson (Eds.), ''Proceedings of the Twenty-Second Conference on Uncertainty in Artificial Intelligence'', 437-444, Corvallis, OR: AUAI Press, 2006.</ref> Usar una red de Bayesian puede salvar las cantidades considerables de la memoria, si las dependencias en el reparto conjunto están escasas. Por ejemplo, una manera ingenua de guardar las probabilidades condicionales de 10 variables con dos valores como una tabla requiere el espacio de almacenamiento para <math>2^{10} = 1024} valores. Si las distribuciones locales de ninguna variable depende de más de 3 variables padre, la representación de la red de Bayesiana solamente tiene que almacenar a lo sumo valores.

Una ventaja de las redes Bayesianas es que es intuitivamente más fácil para un ser humano comprender (un conjunto escaso de) dependencias directas y distribuciones locales que la distribución conjunta completa.

Inferencia de y aprendizaje

Hay tres tareas principales de inferencia para las redes bayesianas.

Deducción de variables no observadas

Debido a que una red bayesiana es un modelo completo de las variables y sus relaciones, se puede utilizar para responder a las consultas de probabilidad acerca de ellos. Por ejemplo, la red se puede utilizar para averiguar el conocimiento actualizado del estado de un subconjunto de variables cuando otras variables (las variables de evidencia) se observan. Este proceso de cálculo de la distribución posterior de las variables dada la evidencia que se llama inferencia probabilística. La posterior da un suficiente estadístico universal para aplicaciones de detección, cuando se quiere elegir los valores para la variable de un subconjunto que minimizan alguna función de pérdida esperada, por ejemplo, la probabilidad de error de decisión. Una red bayesiana de esta manera, puede considerarse como un mecanismo para aplicar automáticamente el teorema de Bayes a problemas complejos.

Los métodos más comunes de inferencia exactas son: eliminación de variables, el cual elimina (mediante integración o suma) las variables no observadas y no consultadas una por una mediante la distribución de la suma sobre el producto; propagación en un árbol clique, que almacena en caché el cálculo de modo que muchas variables se pueden consultar en una vez y nueva evidencia se puede propagar rápidamente; y condicionamiento recursivo y búsqueda AND/OR, que permiten un equilibrio espacio-tiempo y realiza eficientemente la eliminación de variables cuando se usa suficiente espacio. Todos estos métodos tienen una complejidad que es exponencial con respecto al ancho del árbol. Los algoritmos de inferencia aproximada más comunes son muestreo de importancia, simulación estocástica MCMC (Markov Chain Monte Carlo), eliminación mini-cubo, LBP (Loopy Belief Propagation), GBP (Generalized Belief Propagation), y los métodos variacionales.

Aprendizaje de Parámetros

Para especificar completamente la red bayesiana y por lo tanto representar plenamente a la distribución de probabilidad conjunta , es necesario especificar para cada nodo X la distribución de probabilidad de X condicionada dado sus padres. La distribución de X condicionada dado sus padres puede tener cualquier forma. Es común trabajar con distribuciones discretas o gaussianas ya que simplifica los cálculos. A veces sólo restricciones sobre una distribución son conocidas; uno puede entonces utilizar el principio de máxima entropía para determinar una distribución única. (Análogamente, en el contexto específico de una red bayesiana dinámica, una que comúnmente especifica la distribución condicional para la evolución temporal del estado ocultos para maximizar la tasa de entropía del proceso estocástico implícito) A menudo, estas distribuciones condicionales incluyen parámetros que son desconocidos y deben estimarse a partir de los datos, a veces utilizando el enfoque de máxima probabilidad. La maximización directa de la probabilidad (o de la probabilidad posterior) es a menudo compleja cuando hay variables no observadas. Un método clásico de este problema es el algoritmo de expectación-maximización el cual alterna los valores esperados computados de las variables condicionales no observadas a datos observados, con la maximización de la probabilidad total (o posterior) suponiendo que previamente calculados los valores esperados son correctas. Bajo condiciones de regularidad leves este proceso converge en valores de probabilidad máxima (o máximo posterior) para los parámetros. Un enfoque más Bayesiano es tratar a los parámetros como variables no observadas adicionales y para calcular la distribución posterior completa sobre todos los nodos condicionales de los datos observados, después, integrar los parámetros. Este enfoque puede ser costoso y llevar a modelos de grandes dimensiones, por lo que en la práctica enfoques de ajuste de parámetros clásicos son más comunes.

Aprendizaje de Estructuras

En el caso más simple, una red bayesiana se especifica por un experto y se utiliza entonces para realizar inferencia. En otras aplicaciones, la tarea de definir la red es demasiado compleja para los seres humanos. En este caso la estructura de la red y los parámetros de las distribuciones locales debe ser aprendido de datos.

El aprendizaje automático de la estructura gráfica de una red bayesiana es un reto dentro del aprendizaje de máquina. La idea básica se remonta a un algoritmo de recuperación desarrollado por Rebane y Pearl (1987) [2]​ y se basa en la distinción entre los tres tipos posibles de triplos adyacentes permitidos en un gráfico acíclico dirigido (DAG):

Tipo 1 y tipo 2 representan las mismas dependencias ( y son independientes dada ) y son, por tanto, indistinguibles. Tipo 3, sin embargo, puede ser identificado de forma única, ya que y son marginalmente independientes y todos los otros pares son dependientes. Así, mientras que los esqueletos (los grafos despojados de flechas) de estos tres triplos son idénticos, la direccionalidad de las flechas es parcialmente identificable. La misma distinción se aplica cuando y tienen padres comunes, excepto que uno debe condicionar primero en esos padres. Se han desarrollado algoritmos para determinar sistemáticamente el esqueleto del grafo subyacente y, a continuación, orientar todas las flechas cuya direccionalidad está dictada por las independencias condicionales observados.[1][3][4][5]

Un método alternativo de aprendizaje estructural utiliza la optimización basada en búsquedas. Se requiere una función de puntuación y una estrategia de búsqueda. Una función de puntuación común es la probabilidad posterior de la estructura dado los datos de entrenamiento. El requisito de tiempo de una búsqueda exhaustiva retornando una estructura que maximice la puntuación es superexponencial en el número de variables. Una estrategia de búsqueda local hace cambios incrementales destinados a mejorar la puntuación de la estructura. Un algoritmo de búsqueda global como la cadena de Markov Monte Carlo puede evitar quedar atrapado en mínimos locales. Friedman et al. [6][7]​ habla acerca del uso de la información mutua entre las variables y encontrar una estructura que maximiza esto. Lo hacen mediante la restricción del conjunto de padres candidatos a k nodos y exhaustivamente buscan en el mismo.


Introducción estadística

Dados los datos y el parámetro , Un simple análisis Bayesiano comienza con una probabilidad a priori (antes) y probabilidad para calcular una probabilidad posterior . A menudo, el antes en , depende a su vez de otros parámetros que no se mencionan en la probabilidad. Por lo tanto, la previa debe ser sustituido por una probabilidad , y un previo en los parámetros introducidos recientemente se requiere, lo que resulta en una probabilidad posterior

Este es el ejemplo más simple de un modelo jerárquico Bayesiano. El proceso se puede repetir, por ejemplo, los parámetros pueden depender a su vez de parámetros adicionales , lo que requerirá su propio previo. Finalmente, el proceso debe terminar, con previos que no dependen de otros parámetros no se han mencionado.

Ejemplos Introductorios

Supongamos que hemos medido las cantidades cada una con una distribución normal de los errores conocidos y desviación estándar ,

Supongamos que estamos interesados en estimar la . Un enfoque sería estimar la utilizando un enfoque de máxima verosimilitud; ya que las observaciones son independientes, la probabilidad factoriza y la estimación de máxima probabilidad es simplemente

Sin embargo, si las cantidades están relacionados, de modo que por ejemplo se puede pensar que los individuales han sido extraídos de una distribución subyacente, a continuación, esta relación destruye la independencia y sugiere un modelo más complejo, por ejemplo,

con previos inapropiados plana, plano. ¿Cuándo , este es un modelo identificado (es decir, existe una única solución para los parámetros del modelo), y la distribución posterior de la individual tenderá a moverse o reducir la distancia de máxima verosimilitud estimada hacia su media común. Esta contracción es un comportamiento típico de los modelos jerárquicos bayesianos.

Restricciones a los previos

Hay que tener algún cuidado al elegir los previos en un modelo jerárquico, en particular sobre las variables de escala en los niveles superiores de la jerarquía, como la variable en el ejemplo. Los previos habituales, tales como los previos de Jeffrey a menudo no funcionan, debido a que la distribución posterior será incorrecta (no normalizable), y estimaciones realizadas por reducir al mínimo la pérdida esperada será inadmisible .

Definiciones y conceptos

Hay varias definiciones equivalentes de una red bayesiana. Por todo lo siguiente, sea G = (V, E) un gráfico acíclico dirigido (o DAG), y sea X = (Xv)v ? V un conjunto de variables aleatorias indexadas por V.

Definición de factorización

X es una red bayesiana con respecto a G si su función de densidad de probabilidad conjunta (con respecto a una medida de producto) se puede escribir como un producto de las funciones de densidad individuales, condicionadas a las variables de sus padres:[8]

donde pa(v) es el conjunto de padres de v (es decir, los vértices apuntando directamente a v a través de una sola arista).

Para cualquier conjunto de variables aleatorias, la probabilidad de cualquier miembro de una distribución conjunta se puede calcular a partir de las probabilidades condicionales utilizando la regla de la cadena (dado un ordenamiento topológico de X) como sigue:[8]

Compárese esto con la definición anterior, que puede ser escrita como: por cada el cual es padre de

La diferencia entre las dos expresiones es la independencia condicional de las variables de cualquiera de sus no-descendientes, dados los valores de las variables de sus padres.

Propiedad local de Markov

X es una red bayesiana con respecto a V si satisface la propiedad local de Markov: cada variable es condicionalmente independiente de sus no-descendientes dado sus variables padres:[9]

donde de(v) es el conjunto de descendientes de v.

Esto también se puede expresar en términos similares a la primera definición, como

para cada la cual no es descendiente de para cada que es padre de

Tenga en cuenta que el conjunto de los padres es un subconjunto del conjunto de los no descendientes porque el grafo es acíclico.

Desarrollo de redes bayesianas

Desarrollar una red bayesiana, que a menudo se desarrolla primero un DAG G tal que creemos que X satisface la propiedad local de Markov con respecto a G. A veces esto se hace creando un DAG casual. A continuación, determinar las distribuciones de probabilidad condicional de cada variable dados sus padres en G. En muchos casos, en particular en el caso donde las variables son discretas, si se define la distribución conjunta de X como el producto de las distribuciones condicionales, entonces X es una red bayesiana con respecto a G. [10]

Manta de Markov

La manta de Markov de un nodo es el conjunto de nodos vecinos: sus padres, sus hijos y otros padres de sus hijos. X es una red bayesiana con respecto a G si cada nodo es condicionalmente independiente de todos los demás nodos de la red, dada su manta Markov.[9]

d-separación

Esta definición puede ser más general mediante la definición de la "d" de separación de dos nodos, donde d es direccional. [11][12]​ Sea P un camino (es decir, una colección de aristas, que es como un camino, pero cada una de cuyas aristas pueden tener cualquier dirección) de un nodo de u a v. Entonces P se dice que es d-separado por un conjunto de nodos Z si y sólo si (al menos) uno de cumple lo siguiente:

  1. P contiene una cadena, x -> m -> y, de manera tal que el nodo medio de m está en Z,
  2. P contiene una cadena, x <- m <- y, de manera tal que el nodo medio de m está en Z,
  3. P contiene un tenedor, x <- m -> y, de manera tal que el nodo medio de m está en Z, o
  4. P contiene un tenedor invertido (o acelerador), x -> m <- y, de manera tal que el nodo medio de m no está en Z y el no descendiente de m está en Z.

Así, u y v se dice que están d-separados por Z si todas las rutas entre ellos son d-separados. Si U y V no son d-separados, se les llama d-conectado.

X es una red bayesiana con respecto a G si, para cualquier par de nodos u, v:

donde Z es un conjunto que d-separa u y v. (La manta de Markov es el conjunto mínimo de nodos que d-separa al nodo v de todos los demás nodos)

Modelos Jerárquicos

El término modelo jerárquico a veces se considera un tipo particular de red Bayesiana, pero no tiene una definición formal. A veces el término se reserva para los modelos con tres o más niveles de las variables aleatorias, en otras ocasiones, se reserva para los modelos con variables latentes. En general, sin embargo, cualquier red Bayesiana moderadamente compleja suele llamarse "jerárquica".

Redes Causales

Aunque las redes Bayesianas se utilizan a menudo para representar relaciones causales, esto no tiene por qué ser el caso: una arista dirigida de u a v no requiere que Xv sea causalmente dependiente de Xu. Esto se demuestra por el hecho de que las redes Bayesianas en los grafos:

son equivalentes, es decir imponen exactamente los mismos requisitos de independencia condicional.

Una red causal es una red Bayesiana con un requisito explícito de que la relación sea causal. Las semánticas adicionales de las redes causales especifican que si un nodo X está activamente causado a estar en un estado dado x (una acción escrita como lo hacen (X=x)), entonces la probabilidad de cambios de la función de densidad a la de la red obtenida por cortar los vínculos de los padres de X a X, y el seteando X al valor causada x. [1]​ El uso de estas semánticas, se puede predecir el impacto de las intervenciones externas de los datos obtenidos antes de la intervención.

Aplicaciones

Las redes Bayesianas se utilizan para el modelado del conocimiento en biología computacional y bioinformática (redes reguladoras de genes, la estructura de la proteína, la expresión de genes de análisis, [13]​ el aprendizaje de epistasis a partir de los conjuntos de datos de GWAS [14]​ ), la medicina, [15]biomonitoreo , [16]​ la clasificación de documentos , recuperación de información , [17]​ la búsqueda semántica, <[18]​ el procesamiento de imágenes, fusión de datos, sistemas de soporte de decisiones, [19]​ la ingeniería , los juegos y la ley.[20][21][22]

Software

History

El término "redes bayesianas" fue acuñado por Judea Pearl en 1985 para hacer hincapié en tres aspectos: [23]

  1. El carácter a menudo subjetivo de la información de entrada.
  2. La dependencia de acondicionamiento de Bayes como base para la actualización de la información.
  3. La distinción entre los modos causales y probatorio de razonamiento, lo que subraya Thomas Bayes en un documento publicado póstumamente en 1763. [24]

A finales de 1980 los textos seminales Razonamiento Probabilístico en Sistemas Inteligentes [25]​ y Razonamiento Probabilístico en Sistemas Expertos [26]​ resume las propiedades de las redes Bayesianas y ayudó a establecer las mismas como un campo de estudio.

Variantes informales de este tipo de redes se utilizaron por primera vez por el jurista John Henry Wigmore, en forma de grafos de Wigmore, para analizar la evidencia en un juicio en 1913. [21]: 66–76  Otra variante, llamada diagrama de rutas, fue desarrollada por el genetista Sewall Wright [27]​ y utilizado en ciencias de la conducta y sociales (en su mayoría con modelos paramétricos lineales).

Vea también

Notas

  1. a b c Pearl, Judea (2000). Causality: Models, Reasoning, and Inference. Cambridge University Press. ISBN 0-521-77362-8. 
  2. Rebane, G. and Pearl, J., "The Recovery of Causal Poly-trees from Statistical Data," Proceedings, 3rd Workshop on Uncertainty in AI, (Seattle, WA) pages 222–228, 1987
  3. Spirtes, P.; Glymour, C. (1991). «An algorithm for fast recovery of sparse causal graphs» (PDF). Social Science Computer Review 9 (1): 62-72. doi:10.1177/089443939100900106. 
  4. Spirtes, Peter; Glymour, Clark N.; Scheines, Richard (1993). Causation, Prediction, and Search (1st edición). Springer-Verlag. ISBN 978-0-387-97979-3. 
  5. Verma, Thomas; Pearl, Judea (1991). «Equivalence and synthesis of causal models». En Bonissone, P.; Henrion, M.; Kanal, L.N. et al., eds. UAI '90 Proceedings of the Sixth Annual Conference on Uncertainty in Artificial Intelligence. Elsevier. pp. 255-270. ISBN 0-444-89264-8. 
  6. Por favor, pon la referencia que aparece aquí.
  7. Por favor, pon la referencia que aparece aquí.
  8. a b Russell y Norvig, 2003, p. 496.
  9. a b Russell y Norvig, 2003, p. 499.
  10. Neapolitan, Richard E. (2004). Learning Bayesian networks. Prentice Hall. ISBN 978-0-13-012534-7. 
  11. Geiger, Dan; Verma, Thomas; Pearl, Judea (1990). «Identifying independence in Bayesian Networks» (PDF). Networks 20: 507-534. doi:10.1177/089443939100900106. 
  12. Richard Scheines, D-separation .
  13. N. Friedman, M. Linial, I. Nachman, D. Pe'er (August de 2000). «Using Bayesian Networks to Analyze Expression Data». Journal of Computational Biology (Larchmont, New York: Mary Ann Liebert, Inc.) 7 (3/4): 601-620. ISSN 1066-5277. PMID 11108481. doi:10.1089/106652700750050961. 
  14. Jiang, X.; Neapolitan, R.E.; Barmada, M.M.; Visweswaran, S. (2011). «Learning Genetic Epistasis using Bayesian Network Scoring Criteria». BMC Bioinformatics 12: 89. PMC 3080825. PMID 21453508. doi:10.1186/1471-2105-12-89. 
  15. J. Uebersax (2004). Genetic Counseling and Cancer Risk Modeling: An Application of Bayes Nets. Marbella, Spain: Ravenpack International. 
  16. Jiang X, Cooper GF. (July–August 2010). «A Bayesian spatio-temporal method for disease outbreak detection». J Am Med Inform Assoc 17 (4): 462-71. PMC 2995651. PMID 20595315. doi:10.1136/jamia.2009.000356. 
  17. Luis M. de Campos, Juan M. Fernández-Luna and Juan F. Huete (2004). «Bayesian networks and information retrieval: an introduction to the special issue». Information Processing & Management (Elsevier) 40 (5): 727-733. ISBN 0-471-14182-8. doi:10.1016/j.ipm.2004.03.001. 
  18. Christos L. Koumenides and Nigel R. Shadbolt. 2012. Combining link and content-based information in a Bayesian inference model for entity search. In Proceedings of the 1st Joint International Workshop on Entity-Oriented and Semantic Search (JIWES '12). ACM, New York, NY, USA, , Article 3 , 6 pages. DOI=10.1145/2379307.2379310
  19. F.J. Díez, J. Mira, E. Iturralde and S. Zubillaga (1997). «DIAVAL, a Bayesian expert system for echocardiography». Artificial Intelligence in Medicine (Elsevier) 10 (1): 59-73. PMID 9177816. 
  20. G. A. Davis (2003). «Bayesian reconstruction of traffic accidents». Law, Probability and Risk 2 (2): 69-89. doi:10.1093/lpr/2.2.69. 
  21. a b J. B. Kadane and D. A. Schum (1996). A Probabilistic Analysis of the Sacco and Vanzetti Evidence. New York: Wiley. ISBN 0-471-14182-8. 
  22. O. Pourret, P. Naim and B. Marcot (2008). Bayesian Networks: A Practical Guide to Applications. Chichester, UK: Wiley. ISBN 978-0-470-06030-8. 
  23. Pearl, J. (1985). Bayesian Networks: A Model of Self-Activated Memory for Evidential Reasoning (UCLA Technical Report CSD-850017). Proceedings of the 7th Conference of the Cognitive Science Society, University of California, Irvine, CA. pp. 329–334. Consultado el 1 de mayo de 2009. 
  24. Bayes, T.; Price, Mr. (1763). «An Essay towards solving a Problem in the Doctrine of Chances». Philosophical Transactions of the Royal Society of London 53: 370-418. doi:10.1098/rstl.1763.0053. 
  25. Pearl, J. Probabilistic Reasoning in Intelligent Systems. San Francisco CA: Morgan Kaufmann. p. 1988. ISBN 1558604790. 
  26. Neapolitan, Richard E. (1989). Probabilistic reasoning in expert systems: theory and algorithms. Wiley. ISBN 978-0-471-61840-9. 
  27. Wright, S. (1921). «Correlation and Causation» (PDF). Journal of Agricultural Research 20 (7): 557-585. 

Referencias generales

Enlaces Externos