Modelo de espacio vectorial

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

Se conoce como modelo de espacio vectorial a un modelo algebraico utilizado para filtrado, recuperación, indexado y cálculo de relevancia de información. Representa documentos en lenguaje natural de una manera formal mediante el uso de vectores (de identificadores, por ejemplo términos de búsqueda) en un espacio lineal multidimensional. Fue usado por primera vez por el sistema SMART de recuperación de información.

La teórica básica es que la relevancia de un documento frente a una búsqueda puede calcularse usando la diferencia de ángulos (basada en el coseno de esos ángulos) de cada uno de los documentos respecto del vector que busca, utilizando el producto escalar entre el vector de búsqueda . Así un valor de coseno de cero significa que la búsqueda y el documento son ortogonales el uno al otro, y eso significa que no hay coincidencia.

Para determinar el coseno del ángulo entre dos vectores se usa la siguiente ecuación:


\cos{\theta} = \frac{\mathbf{v_1} \cdot \mathbf{v_2}}{\left\| \mathbf{v_1} \right\| \left \| \mathbf{v_2} \right\|}


donde:

  • teta es el ángulo entre v1 y v2
  • v1 es el primer vector
  • v2 es el segundo vector
  • . representa el producto
  • ||x|| representa la magnitud del vector x

El modelo clásico propuesto por Salton, Wong y Yang tenía parámetros locales y globales incorporados en la ecuacuón del peso del término (w(n)) conocida como tf-idf):

w(n) = f(n) x Log (D / d(n))

donde:

  • w(n) es el peso del término para la búsqueda de la palabra clave n,
  • f(n) es la frecuencia en la que aparece el término n en el documento (representa el parámetro local),
  • d(n) es el número de documentos conteniendo al término n
  • D es la cantidad total de documentos


Apúntese que el cociente d(n)/D es esencialmente la probabilidad de encontrar el documento que contiene el término n en el conjunto que está siendo utilizado y representa el parámetro global.


Limitaciones del modelo de espacio vectorial[editar]

El modelo de espacio vectorial tiene las siguientes limitaciones:

  1. Los documentos largos quedan poco representados ya que contienen pocos valores en común (un producto escalar menor y una gran dimensionalidad)
  2. Las palabras de búsqueda deben coincidir con las palabras del documento, partes de un palabra pueden dar en falsos positivos.
  3. Sensibilidad semántica, documentos con contextos similares pero con diferente vocabulario no serán asociados, resultando en falsos negativos


Bibliografía[editar]

Véase también[editar]

Enlaces externos[editar]