Índice Jaccard

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

[]

El índice de Jaccard ( IJ ) o coeficiente de Jaccard ( IJ ) mide el grado de similitud entre dos conjuntos, sea cual sea el tipo de elementos.

La formulación es la siguiente:

J(A,B) = |A ∩ B| / |A ∪ B|

Es decir, la cardinalidad de la intersección de ambos conjuntos dividida por la cardinalidad de su unión.

Siempre toma valores entre 0 y 1, correspondiente este último a la igualdad total entre ambos conjuntos.

En ecología se usa para medir la similitud, disimilitud o distancias que existen entre dos estaciones de muestreo, con una formulación equivalente [1] :

IJ: c / (a+b-c)

Donde:

  • a: es el número de especies presentes en la estación A.
  • b: es el número de especies presentes en la estación B.
  • c: es el número de especies presentes en ambas estaciones, A y B.

En este sentido 0 significa que las estaciones no presentan especies en común, y tiende a 1 a medida que aumenta el número de especies compartidas.

En informática se utiliza para medir la distancia entre vectores definidos sobre un espacio vectorial booleano (las componentes del vector sólo pueden ser 0 o 1).

J(A,B) = |A ∧ B| / |A ∨ B|

donde ∧ y ∨ son, respectivamente, las operaciones × (AND) y + (OR) de la lógica booleana, y |A|=∑ai.

Referencias[editar]

  1. Real, R., & Vargas, J. M. (1996). The probabilistic basis of Jaccard's index of similarity. Systematic biology, 45(3), 380-385. https://www.researchgate.net/profile/Raimundo_Real/publication/239604848_The_Probabilistic_Basis_of_Jaccard's_Index_of_Similarity/links/0c9605268d8ff04ab1000000.pdf