Diferencia entre revisiones de «K-medias»

Contenido eliminado Contenido añadido

En renglón

Revisión del 01:55 3 ene 2013

En mineria de datos, k -means es un método de agrupamiento, que tiene como objetivo la [partición [de un conjunto]] n en k grupos en el que cada observación pertenece al grupo más cercano a la media. Esto da lugar a una compartimentación del espacio de datos en celdas de Voronoi.

El problema es computacionalmente difícil (NP-hard), sin embargo hay eficientes heurísticas que se emplean comúnmente y convergen rápidamente a un óptimo local. Estos suelen ser similares a los algoritmos expectation-maximization de mezclas de distribuciónes gausianas por medio de un enfoque de refinamiento iterativo empleado por ambos algoritmos. Además, los dos algoritmos usan los centros de los grupos utilizar para modelar los datos, sin embargo k-meanstiende a encontrar grupos de extensión espacial comparable, mientras que el mecanismo expectation-maximization permite que los grupos que tengan formas diferentes.

Descripción

Dado un conjunto de observaciones (x₁, x₂, …, x_n), donde cada observación es un vector real de d dimensiones, k-means construye a una partición de las observaciones en k conjuntos (k = n) S = {S₁, S₂, …, S_k}

a fin de minimizar la suma de los cuadrados  dentro de cada grupo (WCSS):

{\underset {\mathbf {S} }{\operatorname {arg\,min} }}\sum _{i=1}^{k}\sum _{\mathbf {x} _{j}\in S_{i}}\left\|\mathbf {x} _{j}-{\boldsymbol {\mu }}_{i}\right\|^{2}

donde µ_i es la media de puntos en S_i.

Historia

El término "k-means" fue utilizado por primera vez por James MacQueen en 1967,^[1] aunque la idea se remonta a Hugo Steinhaus en 1957.^[2] El [algoritmo [# Standard | algoritmo estándar]] fue propuesto por primera vez por Stuart Lloyd en 1957 como una técnica para modulación por impulsos codificados, aunque no se publicó fuera de los laboratorios Bell hasta 1982.^[3] En 1965, E. W. Forgy publicó esencialmente el mismo método, por lo que a veces también se le nombra como Lloyd-Forgy. ^[4] Una versión más eficiente fue propuesta y publicada en Fortran por Hartigan y Wong en 1975/1979.^[5]^[6]

Algoritmos

Algoritmo estándar

El algoritmo más común utiliza una técnica de refinamiento iterativo. Debido a su ubicuidad a menudo se llama el aloritmo k-means', también se le conoce como 'algoritmo de Lloyd, sobre todo en la comunidad informática.

Dado un conjunto inicial de k centroides m₁⁽¹⁾,…,m_k⁽¹⁾

(ver más abajo), el algoritmo continúa alternando entre dos pasos:^[7]

Paso de asignación: Asigna a cada observación al grupo con la media

más cercana (es decir, la partición de las observaciones de acuerdo con el diagrama de Voronoi generado por los centroides).

S_{i}^{(t)}={\big \{}x_{p}:{\big \|}x_{p}-m_{i}^{(t)}{\big \|}\leq {\big \|}x_{p}-m_{j}^{(t)}{\big \|}\ \forall \ 1\leq j\leq k{\big \}}

Donde cada

x_{p}

va exactamente dentro de un

$S_{i}^{(t)}$ , incluso aunque pudiera ir en dos de ellos.

Paso de actualizacion: Calcular los nuevos centroides como el centroide de las observaciones en el grupo.

\mathbf {m} _{i}^{(t+1)}={\frac {1}{|S_{i}^{(t)}|}}\sum _{\mathbf {x} _{j}\in S_{i}^{(t)}}\mathbf {x} _{j}

El algoritmo se considera que ha convergido cuando las asignaciones ya no cambian.

Comúnmente utilizados son los métodos de inicialización de Forgy y Partición Aleatoria.^[8] El método Forgy elige aleatoriamente k observaciones del conjunto de datos y las utiliza como centroides iniciales. El método de partición aleatoria primero asigna aleatoriamente un clúster para cada observación y después procede a la etapa de actualización, por lo tanto calcular el cluster inicial para ser el centro de gravedad de los puntos de la agrupación asignados al azar. El método Forgy tiende a dispersar los centroides iniciales, mientras que la particion aleatoria ubica los centroides cerca del centro del conjunto de datos. Según Hamerly y compañia,^[8] el método de partición aleatoria general, es preferible para los algoritmos tales como los k-harmonic means y fuzzy k-means. Para expectation maximization y el algoritmo estandar el método de Forgy es preferible.

Demonstración del algoritmos estandar
1) k centroides iniciales (en este caso k=3)
Archivo:Son generados aleatoriamente dentro de un conjunto de datos (mostrados en color).
2) k grupos son generados asociandole el punto
3) EL centroide de cada uno de los k grupos se recalcula.
4) Pasos 2 y 3 se repiten hasta que se logre la convergencia.

Como se trata de un algoritmo heurístico, no hay ninguna garantía de que convergen al óptimo global, y el resultado puede depender de los grupos iniciales. Como el algoritmo suele ser muy rápido, es común para ejecutar varias veces con diferentes condiciones de partida. Sin embargo, en el peor de los casos, k-means puede ser muy lento para converger: en particular, se ha demostrado que existen conjuntos de determinados puntos, incluso en 2 dimensiones, en la que k-means toma tiempo exponencial, es decir $2 O(n)$ , para converger.^[9] Estos conjuntos de puntos no parecen surgir en la práctica: esto se ve corroborado por el hecho de que en la mayoría de los casos el tiempo de ejecución de k-means es polinomial.^[10]

El "paso de asignación" también se le conoce como paso expectativa, la "etapa de actualización", como paso maximización, por lo que este algoritmo una variante del algoritmo generalizado expectation-maximization.

Complejidad

Respecto a la complejidad computacional, el agrupamiento k-means para problemas en espacios de d dimensiones es:

NP-hard en un espacio euclideano general d incluso para 2 grupos

^[11]^[12]

NP-hard para un numero general de grupos k incluso en el plano

^[13]

Si k y d son fijados, el problema se puede resolver en un tiempo

O(n^dk+1 log n), where n is the

number of entities to be clustered ^[14]

Por lo tanto, una gran variedad de heuristicas son usadas generalmente.

El algoritmo $k$ -means que se discute debajo tiene

orden polinomial para la mayoria de los casos. Se ha demostrado que ^[10] para un conjunto arbitrario de $n$ puntos en $[0,1]^{d}$ , si cada punto es perturbado independientemente por una distribución normal con media $0$ y varianza $\sigma ^{2}$ , entonces el tiempo de corrida del algoritmo $k$ -means esta acotado por $O(n^{34}k^{34}d^{8}log^{4}(n)/\sigma ^{6})$ , que es un tiempo polinomial en $n$ , $k$ , $d$ y $1/\sigma$ .

Se han demostrado mejores cotas para casos simples. Por

ejemplo,^[15] demuestra que el tiempo de corrida del algoritmo $k$ -means esta acotado por $O(dn^{4}M^{2})$ para $n$ puntos enteros en la rejilla $\{1,\dots ,M\}^{d}$ .

Variaciones

Fuzzy C-Means Clustering es una version difusa del K-means,

donde cada punto tiene un grado difuso de pertenecia a cada grupo.

Modelos de mezclas gausianas entrenadas con el algoritmo expectation-maximization presentan

una asignacion probabilística a cada grupo, en vez de asignaciones deterministas.

Se han presentado varios métodos para elegir mejor los centroides iniciales. Una propuesta reciente es k-means++.
Algoritmos de filtrado utilizan kd-trees para mejorar la eficiencia en cada paso del algoritmo.^[16]
Algunos métodos también intentan acelerar el algoritmo usando coresets^[17]

or the triangle inequality.^[18]

Se puede escapar de óptimos locales intercambiando puntos entre los grupos..^[6]

El algoritmo Spherical k-means es bastante usado para datos direccionales.^[19]

EL algoritmo Minkowski metric weighted k-means trata el problema

del ruido asignando pesos a las componentes de los vectores por grupos^[20]

Discusión

Las dos características claves del k-means, las que lo hacen eficiente vienen a convertirse en su principal problema:

La distancia euclideana se usa como unamétrica y la varianza es usada como una medida de la dispersión de los grupos.
El número de grupos k es un parámetro de entrada: una elección inapropiada puede acarrear malos resultados. Por eso es muy importante cuando corremos el k-means tener en cuenta la importancia de determinar el numeros de grupos para un conjunto de datos.
La convergencia a óptimos locales puede traer malos resultados(ver ejemplo en Fig.).

Una limitación clave del k-means es su modelo de agrupamiento. El concepto se basa en grupos esféricos que son separables de una forma en que el valor de la media converge hacia el centro del grupo. Se espera que los grupos tengan igual tamaño, por lo que la asignación al grupo más cercano es la asignación correcta. Cuando por ejemplo aplicamos k-means con un valor de $k=3$ al conjunto de datos Iris flower, el resultado no es el esperado incluso habiendo tres especies en el conjunto de datos. Con $k=2$ , los dos grupos visibles(uno conteniendo dos especies) se pueden observar, mientras que con $k=3$ uno de los dos grupos se divide en dos partes iguales. De hecho, $k=2$ es más apropiado para este conjunto de datos, aunque este último contenga 3 clases. Como con cualquier otro algoritmo de agrupamiento, el resultado de k-means depende del conjunto de datos para satisfacer las necesidades del algoritmo. Simplemente trabaja bien en algunos conjuntos de datos mientras que falla en otros.

El resultado del k-means se puede ver como las celdas de Voronoi de los centroides de los grupos. Como los datos se separan en cierta forma por la media de los grupos, esto puede llevarnos a óptimos locales como se puede ver en la colleccion "mouse". Los modelos gausianos usados por el algoritmo Expectation-maximization (que puede ser visto como una

generalización del k-means) son más flexibles ya que controlan

varianzas y covarianzas. El resultado de EM crea grupos con tamaño variable más fácilmente que k-means tanto como grupos correlacionados (no en este ejemplo).

Applicaciones del algoritmo

Agrupamiento k-means cuando se usan heurísticas como el algiritmo de Lloyd es fácil de implementar incluso para largos conjuntos de datos. Por lo que ha sido ampliamente usado en muchas areas como segmentación de mercados, visión por computadoras, geoestadística,^[22] and astronomy to [[Data Mining in Agriculture|agriculture]]. También se usa como preprocesamiento para otros algoritmos, por ejemplo para buscar una configuración inicial.

Software

Libre

Apache Mahout k-Means
CrimeStat implemanta dos algoritmos espaciales de k-means, uno de ellos permite al usuario definir los puntos iniciales.
ELKI contiene k-means (con iteracionesd de Lloyd and MacQueen, as'i como diferente inicializaciones, por ejemplo k-means++) y otros algoritmos de agrupamientos más avanzados.
MLPACK contiene una implementacion del k-means
R kmeans implementa una variedad de algoritmos^[1]^[3]^[6]
SciPy vector-quantization
Silverlight widget mostrando el algoritmo k-means
extensiones PostgreSQL para k-means
CMU's GraphLab Clustering library Implementacion eficiente para varios processadores.
Weka contiene k-means y algunas varientes, como k-means++ y x-means.
Spectral Python contiene metodos para la clasificación no supervisada incluyendo el algoritmo k-means.

Comercial

IDL Cluster, Clust_Wts
Mathematica ClusteringComponents function
MATLAB kmeans
SAS FASTCLUS
VisuMap kMeans Clustering

Código fuente

ELKI and Weka esta escrito en Java y contiene implementaciones del k-means
K-means en PHP,^[23] using VB,^[24] using Perl,^[25] using C++,^[26] using Matlab,^[27] using Ruby,^[28]^[29] using Python with scipy,^[30] using X10^[31]
Una implementacion en C^[32]
Una colección de algoritmos de agrupamientos incluido k-means, implementado en Javascript.^[33] Online demo.^[34]

Puede consultar también

References

↑ ^a ^b MacQueen, J. B. (1967). Some Methods for classification and Analysis of Multivariate Observations. Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability 1. University of California Press. pp. 281–297. MR 0214227. Zbl 0214.46201. Consultado el 7 de abril de 2009.
↑ Steinhaus, H. (1957). «Sur la division des corps matériels en parties». Bull. Acad. Polon. Sci. (en french) 4 (12): 801–804. MR 0090073. Zbl 0079.16403.
↑ ^a ^b Lloyd, S. P. (1957). «Least square quantization in PCM». Bell Telephone Laboratories Paper. Publicado mucho mas tarde en la revista: Lloyd., S. P. (1982). «Least squares quantization in PCM». IEEE Transactions on Information Theory 28 (2): 129–137. doi:10.1109/TIT.1982.1056489. Consultado el 15 de abril de 2009.
↑ E.W. Forgy (1965). «Cluster analysis of multivariate data: efficiency versus interpretability of classifications». Biometrics 21: 768-769.
↑ J.A. Hartigan (1975). Clustering algorithms. John Wiley & Sons, Inc.
↑ ^a ^b ^c Hartigan, J. A.; Wong, M. A. (1979). «Algorithm AS 136: A K-Means Clustering Algorithm». Journal of the Royal Statistical Society, Series C (Applied Statistics) 28 (1): 100–108. JSTOR 2346830.
↑ MacKay, David (2003). «Chapter 20. An Example Inference Task: Clustering». Information Theory, Inference and Learning Algorithms. Cambridge University Press. pp. 284–292. ISBN 0-521-64298-1. MR 2012999.
↑ ^a ^b Hamerly, G. and Elkan, C. (2002). «Alternatives to the k-means algorithm that find better clusterings». Proceedings of the eleventh international conference on Information and knowledge management (CIKM).
↑ Vattani., A. (2011). «k-means requires exponentially many iterations even in the plane». Discrete and Computational Geometry 45 (4): 596–616. doi:10.1007/s00454-011-9340-1.
↑ ^a ^b Arthur, D.; Manthey, B.; Roeglin, H. (2009). «k-means has polynomial smoothed complexity». Proceedings of the 50th Symposium on Foundations of Computer Science (FOCS).
↑ Aloise, D.; Deshpande, A.; Hansen, P.; Popat, P. (2009). «NP-hardness of Euclidean sum-of-squares clustering». Machine Learning 75: 245–249. doi:10.1007/s10994-009-5103-0.
↑ Dasgupta, S. and Freund, Y. (July de 2009). «Random Projection Trees for Vector Quantization». Information Theory, IEEE Transactions on 55: 3229–3242. arXiv:0805.1390. doi:10.1109/TIT.2009.2021326.
↑ Mahajan, M.; Nimbhorkar, P.; Varadarajan, K. (2009). «The Planar k-Means Problem is NP-Hard». Lecture Notes in Computer Science 5431: 274–285. doi:10.1007/978-3-642-00202-1_24.
↑ Inaba, M.; Katoh, N.; Imai, H. (1994). Applications of weighted Voronoi diagrams and randomization to variance-based k-clustering. Proceedings of 10th ACM Symposium on Computational Geometry. pp. 332–339. doi:10.1145/177424.178042.
↑ Arthur; Abhishek Bhowmick (2009). A theoretical analysis of Lloyd's algorithm for k-means clustering. Texto « http://www.cse.iitk.ac.in/users/bhowmick/lloyd.pdf » ignorado (ayuda)
↑ Kanungo, T.; Mount, D. M.; [[Nathan Netanyahu|Netanyahu, N. S.]]; Piatko, C. D.; Silverman, R.; Wu, A. Y. (2002). «An efficient k-means clustering algorithm: Analysis and implementation». IEEE Trans. Pattern Analysis and Machine Intelligence 24: 881–892. doi:10.1109/TPAMI.2002.1017616. Consultado el 24 de abril de 2009.
↑ Frahling, G.; Sohler, C. (2006). «A fast k-means implementation using coresets». Proceedings of the twenty-second annual symposium on Computational geometry (SoCG).
↑ Elkan, C. (2003). «Using the triangle inequality to accelerate k-means». Proceedings of the Twentieth International Conference on Machine Learning (ICML).
↑ Dhillon, I. S.; Modha, D. M. (2001). «Concept decompositions for large sparse text data using clustering». Machine Learning 42 (1): 143–175.
↑ Amorim, R. C.; Mirkin, B (2012). «Minkowski metric, feature weighting and anomalous cluster initializing in K-Means clustering». Pattern Recognition 45 (3): 1061–1075. doi:10.1016/j.patcog.2011.08.012.
↑ Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas Mirkes2011
↑ Honarkhah, M and Caers, J, 2010, [http://dx.doi.org/10.1007/s11004-010-9276-7 Stochastic Simulation of Patterns Using Distance-Based Pattern Modeling], Mathematical Geosciences, 42: 487 - 517
↑ http://www25.brinkster.com/denshade/kmeans.php.htm
↑ K-Means Clustering Tutorial: Download
↑ Perl script for Kmeans clustering
↑ Antonio Gulli's coding playground: K-means in C
↑ K-Means Clustering Tutorial: Matlab Code
↑ AI4R :: Artificial Intelligence for Ruby
↑ reddavis/K-Means · GitHub
↑ K-means clustering and vector quantization (scipy.cluster.vq) — SciPy v0.11 Reference Guide (DRAFT)
↑ http://dist.codehaus.org/x10/applications/samples/KMeansDist.x10
↑ http://www.cs.princeton.edu/~wdong/kmeans/
↑ http://code.google.com/p/figue/ FIGUE
↑ http://web.science.mq.edu.au/~jydelort/figue/demo.html

[macqueen1967-1] MacQueen, J. B. (1967). Some Methods for classification and Analysis of Multivariate Observations. Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability 1. University of California Press. pp. 281–297. MR 0214227. Zbl 0214.46201. Consultado el 7 de abril de 2009.

[2] Steinhaus, H. (1957). «Sur la division des corps matériels en parties». Bull. Acad. Polon. Sci. (en french) 4 (12): 801–804. MR 0090073. Zbl 0079.16403.

[lloyd1957-3] Lloyd, S. P. (1957). «Least square quantization in PCM». Bell Telephone Laboratories Paper. Publicado mucho mas tarde en la revista: Lloyd., S. P. (1982). «Least squares quantization in PCM». IEEE Transactions on Information Theory 28 (2): 129–137. doi:10.1109/TIT.1982.1056489. Consultado el 15 de abril de 2009.

[forgy65-4] E.W. Forgy (1965). «Cluster analysis of multivariate data: efficiency versus interpretability of classifications». Biometrics 21: 768-769.

[hartigan1975-5] J.A. Hartigan (1975). Clustering algorithms. John Wiley & Sons, Inc.

[hartigan1979-6] Hartigan, J. A.; Wong, M. A. (1979). «Algorithm AS 136: A K-Means Clustering Algorithm». Journal of the Royal Statistical Society, Series C (Applied Statistics) 28 (1): 100–108. JSTOR 2346830.

[7] MacKay, David (2003). «Chapter 20. An Example Inference Task: Clustering». Information Theory, Inference and Learning Algorithms. Cambridge University Press. pp. 284–292. ISBN 0-521-64298-1. MR 2012999.

[hamerly-8] Hamerly, G. and Elkan, C. (2002). «Alternatives to the k-means algorithm that find better clusterings». Proceedings of the eleventh international conference on Information and knowledge management (CIKM).

[9] Vattani., A. (2011). «k-means requires exponentially many iterations even in the plane». Discrete and Computational Geometry 45 (4): 596–616. doi:10.1007/s00454-011-9340-1.

[Arthur,_D.;_Manthey,_B.;_Roeglin,_H._2009-10] Arthur, D.; Manthey, B.; Roeglin, H. (2009). «k-means has polynomial smoothed complexity». Proceedings of the 50th Symposium on Foundations of Computer Science (FOCS).

[11] Aloise, D.; Deshpande, A.; Hansen, P.; Popat, P. (2009). «NP-hardness of Euclidean sum-of-squares clustering». Machine Learning 75: 245–249. doi:10.1007/s10994-009-5103-0.

[12] Dasgupta, S. and Freund, Y. (July de 2009). «Random Projection Trees for Vector Quantization». Information Theory, IEEE Transactions on 55: 3229–3242. arXiv:0805.1390. doi:10.1109/TIT.2009.2021326.

[13] Mahajan, M.; Nimbhorkar, P.; Varadarajan, K. (2009). «The Planar k-Means Problem is NP-Hard». Lecture Notes in Computer Science 5431: 274–285. doi:10.1007/978-3-642-00202-1_24.

[14] Inaba, M.; Katoh, N.; Imai, H. (1994). Applications of weighted Voronoi diagrams and randomization to variance-based k-clustering. Proceedings of 10th ACM Symposium on Computational Geometry. pp. 332–339. doi:10.1145/177424.178042.

[15] Arthur; Abhishek Bhowmick (2009). A theoretical analysis of Lloyd's algorithm for k-means clustering. Texto « http://www.cse.iitk.ac.in/users/bhowmick/lloyd.pdf » ignorado (ayuda)

[16] Kanungo, T.; Mount, D. M.; [[Nathan Netanyahu|Netanyahu, N. S.]]; Piatko, C. D.; Silverman, R.; Wu, A. Y. (2002). «An efficient k-means clustering algorithm: Analysis and implementation». IEEE Trans. Pattern Analysis and Machine Intelligence 24: 881–892. doi:10.1109/TPAMI.2002.1017616. Consultado el 24 de abril de 2009.

[17] Frahling, G.; Sohler, C. (2006). «A fast k-means implementation using coresets». Proceedings of the twenty-second annual symposium on Computational geometry (SoCG).

[18] Elkan, C. (2003). «Using the triangle inequality to accelerate k-means». Proceedings of the Twentieth International Conference on Machine Learning (ICML).

[19] Dhillon, I. S.; Modha, D. M. (2001). «Concept decompositions for large sparse text data using clustering». Machine Learning 42 (1): 143–175.

[20] Amorim, R. C.; Mirkin, B (2012). «Minkowski metric, feature weighting and anomalous cluster initializing in K-Means clustering». Pattern Recognition 45 (3): 1061–1075. doi:10.1016/j.patcog.2011.08.012.

[Mirkes2011-21] Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas Mirkes2011

[22] Honarkhah, M and Caers, J, 2010, [http://dx.doi.org/10.1007/s11004-010-9276-7 Stochastic Simulation of Patterns Using Distance-Based Pattern Modeling], Mathematical Geosciences, 42: 487 - 517

[23] ttp://www25.brinkster.com/denshade/kmeans.php.htm

[24] K-Means Clustering Tutorial: Download

[25] Perl script for Kmeans clustering

[26] Antonio Gulli's coding playground: K-means in C

[27] K-Means Clustering Tutorial: Matlab Code

[28] AI4R :: Artificial Intelligence for Ruby

[29] reddavis/K-Means · GitHub

[30] K-means clustering and vector quantization (scipy.cluster.vq) — SciPy v0.11 Reference Guide (DRAFT)

[31] ttp://dist.codehaus.org/x10/applications/samples/KMeansDist.x10

[32] ttp://www.cs.princeton.edu/~wdong/kmeans/

[33] ttp://code.google.com/p/figue/ FIGUE

[34] ttp://web.science.mq.edu.au/~jydelort/figue/demo.html

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]