Modelo de relevancia probabilístico

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

El modelo de relevancia probabilístico fue propuesto por Robertson y Spark-Jones en 1976 con el objetivo de representar el proceso de recuperación de información desde el punto de vista de las probabilidades.[1]

Presentación[editar]

Este modelo hace una estimación de la probabilidad de que un documento dj sea relevante una consulta q, asumiendo que dicha probabilidad depende de la representación del documento y de la consulta. Además se asume que existe un subconjunto de documentos de la colección que el usuario prefiere como respuesta a la consulta q. Dicho subconjunto ideal se denota por REL y debe maximizar la probabilidad total de relevancia para un dicho usuario. La predicción se basa en que los documentos que se encuentran en el conjunto REL son relevantes para la consulta y los que no están presentes son no relevantes.

Considerando una consulta se puede dividir una colección de N documentos en cuatro subconjuntos distintos:

  • REL conjunto de documentos relevantes
  • REC conjunto de documentos recuperados
  • RR conjunto de documentos relevantes recuperados
  • NN el conjunto de documentos no relevantes no recuperados
Conjuntos en los que se divide la colección de conjuntos.

En una primera fase se hace una descripción probabilística preliminar del conjunto REL. Posteriormente el usuario analiza cuales de los documentos del cjto REL son realmente relevantes, se hace un proceso de refinamiento de dicho conjunto y se pasa nuevamente al primer paso. Se sigue el procedimiento hasta obtener una probabilidad aceptable o si el usuario decide terminar y trabajar con los documentos recobrados.

Dada una consulta q y un documento dj en la colección este modelo trata de estimar la probabilidad de que el usuario encuentre interesante al documento. Si denotamos al conjunto de documentos relevantes (REL) por R y a su complemento por R techo la función de similitud quedaría como muestra la figura.

Función de similitud.

Definición Formal[editar]

Siguiendo la notación tradicional para la deficición formal de un Modelo de recuperación de información, la definición formal del Modelo Probabilístico es la siguiente:[2]

Modelos relacionados[editar]

Este marco de trabajo posee algunas limitaciones que necesitan ser superadas en próximos desarrollos del mismo:

  • No existe un valor exacto del valor de la probabilidad a usar en el primer paso del algoritmo.
  • Los términos indexados no poseen peso.
  • No se considera la dependencia entre términos.

Para responder a estas limitaciones existen otros modelos basados en el marco de trabajo probabilístico, por ejemplo el modelo de independencia binaria, desarrollado por los mismos autores. El esquema de pesos Okapi(BM25) es derivado de este marco de trabajo al igual que el Okapi(BM25F).

Referencias[editar]

  1. S.E. Robertson; K.S. Jones (May - June 1976), Relevance weighting of search terms, Journal of teh American Society for Information Science, pp. 129-146.
  2. Baeza-Yates, R., Ribeiro-Net, B. (1998) Modern Information Retrieval. 30-34, 38-41, 61-65