Objetivo de Dasgupta

De Wikipedia, la enciclopedia libre

En el estudio de agrupamiento jerárquico, el objetivo de Dasgupta es una medida de la calidad de una agrupación, definida a partir de una medida de similitud de los elementos a agrupar. Lleva el nombre de Sanjoy Dasgupta, quien lo formuló en 2016. [1]​ La propiedad clave es que, cuando la similitud proviene de un espacio ultramétrico, la agrupación óptima para esta medida de calidad sigue la estructura subyacente del espacio ultramétrico. En este sentido, se puede esperar que los métodos de agrupamiento que producen buenos agrupamientos para este objetivo se aproximen a la verdad básica subyacente a la medida de similitud dada. [2]

En la formulación de Dasgupta, el argumento en un problema de agrupamiento consiste en puntajes de similitud entre ciertos pares de elementos, representados como un grafo no dirigido . , con los elementos como sus vértices y con las similitudes como pesos reales no negativos en sus aristas. Los pesos grandes indican elementos que deben considerarse más similares entre sí, mientras que los pesos pequeños o los bordes faltantes indican pares de elementos que no son similares. Un agrupamiento jerárquico se puede describir como un árbol (no necesariamente un árbol binario) cuyas hojas son los elementos que se agruparán; los grupos son entonces los subconjuntos de elementos que descienden de cada nodo del árbol, y el tamaño de cualquier agrupación es su número de elementos. Para cada arista del grafo de entrada, sea el peso de la arista y sea el grupo más pequeño de una agrupación que contiene tanto a como a . Dasgupta define el costo de un agrupamiento como [1]

El agrupamiento óptimo para este objetivo es NP-difícil de encontrar. Sin embargo, es posible encontrar un agrupamiento que se aproxime al valor mínimo del objetivo en tiempo polinomial mediante un algoritmo de agrupamiento divisivo (de arriba hacia abajo) que subdivide repetidamente los elementos utilizando un algoritmo de aproximación para el problema de corte más disperso, el problema de encontrar un partición que minimiza la relación entre el peso total de las aristas cortadas y el número total de aristas cortadas. [1]​ De manera equivalente, con fines de aproximación, se puede minimizar la relación entre el peso total de las aristas cortadas y el número de elementos en el lado más pequeño del corte. Usando la mejor aproximación conocida para el problema de corte más disperso, la relación de aproximación de este enfoque es . [3]

Referencias[editar]

  1. a b c Dasgupta, Sanjoy (2016), «A cost function for similarity-based hierarchical clustering», Proceedings of the 48th Annual ACM SIGACT Symposium on Theory of Computing (STOC 2016), New York, New York: ACM, pp. 118-127, MR 3536559, arXiv:1510.05043, doi:10.1145/2897518.2897527 .
  2. Cohen-Addad, Vincent; Kanade, Varun; Mallmann-Trenn, Frederik; Mathieu, Claire (2018), «Hierarchical clustering: objective functions and algorithms», Proceedings of the Twenty-Ninth Annual ACM-SIAM Symposium on Discrete Algorithms (SODA 2018), Philadelphia, Pennsylvania: Society for Industrial and Applied Mathematics, pp. 378-397, MR 3775814, arXiv:1704.02147, doi:10.1137/1.9781611975031.26 .
  3. Arora, Sanjeev; Rao, Satish; Vazirani, Umesh (2009), «Expander flows, geometric embeddings and graph partitioning», Journal of the ACM 56 (2): A5:1-A5:37, MR 2535878, doi:10.1145/1502793.1502794 .