Modelo booleano

El Modelo Booleano de recuperación de información(MRIB)^[1] es uno de los modelos clásicos de recuperación de información(RI) y, al mismo tiempo, el primero y más adoptado.Es usado por varios sistemas de RI en estos días. ^{[cita requerida]}

Definiciones

El MRIB está basado en la Lógica Booleana y la clásica Teoría de Conjuntos en el cual ambos, los documentos a buscar y la consulta del usuario, son concebidos como un conjunto de términos.La recuperación está basada en cuando los documentos contienen o no los términos de la consulta. Dado un conjunto finito

T = {t₁, t₂, ..., t_j, ..., t_m}

de elementos llamados índices (e.g. palabras o expresiones - las cuales pueden estar lematizadas - describiendo o caracterizando documentos como son palabras dadas para un artículo de un periódico ), un conjunto finito

D = {D₁, ..., D_i, ..., D_n}, donde D_i es un elemento del conjunto potencia de T

de elementos llamados documentos.Dada una expresión Booleana - en forma normal - Q llamada consulta como sigue a continuación:

Q = (W_i OR W_k OR ...) AND ... AND (W_j OR W_s OR ...) ,

con W_i=t_i, W_k=t_k, W_j=t_j, W_s=t_s, or W_i=NON t_i, W_k=NON t_k, W_j=NON t_j, W_s=NON t_s

donde t_i significa que el término t_i está presente en el documento D_i y, por el contrario, NON t_i significa que no está.

Equivalentemente, Q puede ser dado en forma normal disjuntiva, también.Una operación de recuperación consiste de dos pasos como se define a continuación:

1. El conjunto S_j de documentos que son obtenidos que contienen o no el término t_j (dependiendo de cuando W_j=t_j o W_j=NON t_j) :

Sj = {D_i | W_j elemento de D_i}

2. Estos documentos son recuperados como respuesta a Q, los cuales son el resultado de las correspondientes operaciones entre conjuntos, i.e. la respuesta a Q es como sigue:

UNION ( INTERSECCION S_j)

Ejemplo

Sea el conjunto de documentos originales (reales) en idioma inglés , por ejemplo:

O = {O₁, O₂, O₃}

donde

O₁ = Principio de Bayes: El principio que, en la estimación de un parámetro, pudiera inicialmente suponer que cada posible valor tiene igual probabilidad (una distribución uniforme).

O₂ = Teoría de la decisión Bayesiana: Una teoría matemática de toma de decisiones, la cual supone utilidad y funciones de probabilidad, y de acuerdo con el acto de ser elegido es el acto de Bayes, por ejemplo: uno con la mayor Utilidad Subjetiva Esperada. Si uno tuvo tiempo ilimitado y un poder de calcular con el cual hacer cada decisión, este procedimiento será la mejor vía para hacer cualquier decisión.

O₃ = Epistemología Bayesiana : Una teoría filosófica la cual sostiene que el estatus epistémico de una proposición (ejemplo: que tan bien provista o establecida está) está mejor medido por una probabilidad y que la vía verdadera para revisar esta probabilidad está dada por la condicionante Bayesiana o por procedimientos similares. Un epistemólogo Bayesiano utilizaría una probabilidad para definir, y explorar la relación entre, conceptos como estatus epistémico, soporte o poder explicativo.

Sea el conjunto T de términos:

T = {t₁ = Principio de Bayes, t₂ = probabilidad, t₃ = toma de decisión, t₄ = Epistemología Bayesiana}

Entonces, el conjunto D de documentos es como sigue:

D = {D₁, D₂, D₃}

donde

D₁ = {Principio de Bayes, probabilidad}

D₂ = {probabilidad, toma de decisión}

D₃ = {probabilidad, Epistemología Bayesiana}

Sea la consulta Q:

Q = probabilidad AND toma de decisión

1. Primeramente, los siguientes conjuntos S₁ y S₂ de documentos D_i son obtenidos (recuperados):

S₁ = {D₁, D₂, D₃}

S₂ = {D₂}

2. Finalmente, los siguientes documentos D_i son recuperados en respuesta a Q:{D₁, D₂, D₃} INTERSECTION {D₂} = {D₂}

Esto significa que el documento original O₂ (correspondiente a D₂) es la respuesta a Q.

Obviamente, si hay más de un documento con la misma representación, cada documento es recuperado. Dichos documentos son, en el MRIB, indistinguibles (o en otras palabras, equivalentes).

Ventajas

Formalismo.
Fácil de implementar.
Conceptos intuitivos.

Desventajas

Puede recuperar muchos o pocos documentos.
Dificultad para hacer ranking con los documentos resultado, algunos documentos son más importantes que otros.
Difícil de traducir una consulta en una expresión Booleana.
Todos los términos tiene el mismo peso.
Más como recuperación de datos que como recuperación de información.

Estructuras de datos y algoritmos

Desde un puro y formal punto de vista matemático, el MRIB es directo. Desde un punto de vista práctico, de cualquier manera, varios problemas pueden ser resueltos relacionando algoritmos con estructuras de datos, como son por ejemplo, la elección de términos (manual, automática o ambas), lematización, tabla hash, estructura de índices invertidos , y mucho más.^[2]

Conjuntos Hash

Otra posibilidad es el uso de Conjuntos Hash.Cada documento es representado por una tablas hash, la cual contiene cada término del documento. Desde que el tamaño de la tabla hash crece y decrece en tiempo real con adición y eliminación de términos, cada documento ocupará mucho menos espacio en memoria.De cualquier manera, tendrá una caída de rendimiento porque las operaciones son más complejas que con vectores de bits.En el peor caso el rendimiento puede bajar desde O(n) hasta O(n²).En el caso promedio, la caída del rendimiento no será mucho peor que con vectores de bits y el espacio usado es mucho más eficiente.

Referencias

↑ Lancaster, F.W.; Fayen, E.G. (1973), Information Retrieval On-Line, Melville Publishing Co., Los Angeles, California .
↑ Wartik, Steven (1992). «Boolean operations». Information Retrieval Data Structures & Algorithms. Prentice-Hall, Inc. ISBN 0-13-463837-9. Archivado desde el original el 28 de septiembre de 2013. Consultado el 24 de diciembre de 2013.

Lashkari, A.H.; Ghomi, V. (2009), A Boolean Model in Information Retrieval for Search Engines, doi:10.1109/ICIME.2009.101 |autor1= y |last= redundantes (ayuda).

Datos: Q176197

[1] Lancaster, F.W.; Fayen, E.G. (1973), Information Retrieval On-Line, Melville Publishing Co., Los Angeles, California .

[wartik-2] Wartik, Steven (1992). «Boolean operations». Information Retrieval Data Structures & Algorithms. Prentice-Hall, Inc. ISBN 0-13-463837-9. Archivado desde el original el 28 de septiembre de 2013. Consultado el 24 de diciembre de 2013.

[1]

[2]