Conjunto de datos flor iris

De Wikipedia, la enciclopedia libre
Diagrama de dispersión del conjunto de datos

El conjunto de datos flor Iris o conjunto de datos iris de Fisher es un conjunto de datos multivariante introducido por Ronald Fisher en su artículo de 1936, The use of multiple measurements in taxonomic problems (El uso de medidas múltiples en problemas taxonómicos) como un ejemplo de análisis discriminante lineal.[1]​ A veces, se llama Iris conjunto de datos de Anderson porque Edgar Anderson coleccionó los datos para cuantificar la variación morfológica de la flor Iris de tres especies relacionadas.[2]​ Dos de las tres especies se coleccionaron en la Península de la Gaspesia «todos son de la misma pastura, y recolectado el mismo día y medidos al mismo tiempo por la misma persona con el mismo aparato».[3]

El conjunto de datos contiene 50 muestras de cada una de tres especies de Iris (Iris setosa, Iris virginica e Iris versicolor). Se midió cuatro rasgos de cada muestra: el largo y ancho del sépalo y pétalo, en centímetros. Basado en la combinación de estos cuatro rasgos, Fisher desarrolló un modelo discriminante lineal para distinguir entre una especie y otra.

Uso del conjunto de datos[editar]

Resultados insatisfactorios k-means (el conjunto de datos no hace racimos hasta las clases conocidas) y especies de verdad visualizados usando ELKI
Un ejemplo del supuesto "mapa del metro" por el conjunto de datos de los Iris.[4]​ Sola una fracción pequeña de Iris-virginica se mezcla con Iris-versicolor. Todas las otras muestras de las especies diferentes de Iris son de los nódulos diferentes.

Basado en el modelo análisis discriminante de Fisher, este conjunto de datos se convirtió en un caso de prueba típico por muchas técnicas clasificaciones estadísticas en aprendizaje automático como en máquinas de vectores de soporte.

Sin embargo, el uso de este conjunto de datos en algoritmos de agrupamiento no es común porque el conjunto de datos solo contiene dos racimos, con una separación obvia y clara. Uno de los racimos contiene Iris setosa, mientras el otro contiene ambos Iris virginica y Iris versicolor y no es separable sino que uno tiene la información de especies usadas por Fisher. Esto hace el conjunto de datos un ejemplo bueno para explicar la diferencia entre técnicas que se supervisan o no en la minería de datos: El modelo análisis discriminante solo se puede obtener cuando la especie objeta se conoce: etiquetas de clase y racimos no son siempre lo mismo.[5]

Sin embargo, estas tres especies se pueden separar en la proyección en el componente principal del ramaje no lineal.[6]​ El conjunto de datos se aproxima por el árbol más cerca con alguna sanción por el número excesivo de nódulos, doblándose y estirándose. Luego el mapa metro se construye.[4]​ Se proyectan los puntos de datos para el nódulo más cerca. Por cada nódulo se prepara el gráfico circular de los puntos proyectados. La zona del gráfico es proporcional al número de los puntos proyectados. Se ve claro del gráfico que la mayoría absoluta de las muestras de las especies distintas de Iris son de los nódulos diferentes. Sola una fracción pequeña de Iris-virginica se mezcla con Iris-versicolor (la mezcla de nódulos azules con verdes en el diagrama). Así las tres especies de Iris (Iris setosa, Iris virginica y Iris versicolor) se separan por los procedimientos no supervisados del análisis del componente principal no alineado. Para discriminarlos es suficiente seleccionar el nódulo correspondiente en el árbol principal.

Conjunto de datos[editar]

Iris setosa
Iris versicolor
Iris virginica
Mapa espectra biplot de los conjunto de datos de Iris
Fisher's Iris Data
Largo de sépalo Ancho de sépalo Largo de pétalo Ancho de pétalo Especies
5.1 3.5 1.4 0.2 I. setosa
4.9 3.0 1.4 0.2 I. setosa
4.7 3.2 1.3 0.2 I. setosa
4.6 3.1 1.5 0.2 I. setosa
5.0 3.6 1.4 0.2 I. setosa
5.4 3.9 1.7 0.4 I. setosa
4.6 3.4 1.4 0.3 I. setosa
5.0 3.4 1.5 0.2 I. setosa
4.4 2.9 1.4 0.2 I. setosa
4.9 3.1 1.5 0.1 I. setosa
5.4 3.7 1.5 0.2 I. setosa
4.8 3.4 1.6 0.2 I. setosa
4.8 3.0 1.4 0.1 I. setosa
4.3 3.0 1.1 0.1 I. setosa
5.8 4.0 1.2 0.2 I. setosa
5.7 4.4 1.5 0.4 I. setosa
5.4 3.9 1.3 0.4 I. setosa
5.1 3.5 1.4 0.3 I. setosa
5.7 3.8 1.7 0.3 I. setosa
5.1 3.8 1.5 0.3 I. setosa
5.4 3.4 1.7 0.2 I. setosa
5.1 3.7 1.5 0.4 I. setosa
4.6 3.6 1.0 0.2 I. setosa
5.1 3.3 1.7 0.5 I. setosa
4.8 3.4 1.9 0.2 I. setosa
5.0 3.0 1.6 0.2 I. setosa
5.0 3.4 1.6 0.4 I. setosa
5.2 3.5 1.5 0.2 I. setosa
5.2 3.4 1.4 0.2 I. setosa
4.7 3.2 1.6 0.2 I. setosa
4.8 3.1 1.6 0.2 I. setosa
5.4 3.4 1.5 0.4 I. setosa
5.2 4.1 1.5 0.1 I. setosa
5.5 4.2 1.4 0.2 I. setosa
4.9 3.1 1.5 0.2 I. setosa
5.0 3.2 1.2 0.2 I. setosa
5.5 3.5 1.3 0.2 I. setosa
4.9 3.6 1.4 0.1 I. setosa
4.4 3.0 1.3 0.2 I. setosa
5.1 3.4 1.5 0.2 I. setosa
5.0 3.5 1.3 0.3 I. setosa
4.5 2.3 1.3 0.3 I. setosa
4.4 3.2 1.3 0.2 I. setosa
5.0 3.5 1.6 0.6 I. setosa
5.1 3.8 1.9 0.4 I. setosa
4.8 3.0 1.4 0.3 I. setosa
5.1 3.8 1.6 0.2 I. setosa
4.6 3.2 1.4 0.2 I. setosa
5.3 3.7 1.5 0.2 I. setosa
5.0 3.3 1.4 0.2 I. setosa
7.0 3.2 4.7 1.4 I. versicolor
6.4 3.2 4.5 1.5 I. versicolor
6.9 3.1 4.9 1.5 I. versicolor
5.5 2.3 4.0 1.3 I. versicolor
6.5 2.8 4.6 1.5 I. versicolor
5.7 2.8 4.5 1.3 I. versicolor
6.3 3.3 4.7 1.6 I. versicolor
4.9 2.4 3.3 1.0 I. versicolor
6.6 2.9 4.6 1.3 I. versicolor
5.2 2.7 3.9 1.4 I. versicolor
5.0 2.0 3.5 1.0 I. versicolor
5.9 3.0 4.2 1.5 I. versicolor
6.0 2.2 4.0 1.0 I. versicolor
6.1 2.9 4.7 1.4 I. versicolor
5.6 2.9 3.6 1.3 I. versicolor
6.7 3.1 4.4 1.4 I. versicolor
5.6 3.0 4.5 1.5 I. versicolor
5.8 2.7 4.1 1.0 I. versicolor
6.2 2.2 4.5 1.5 I. versicolor
5.6 2.5 3.9 1.1 I. versicolor
5.9 3.2 4.8 1.8 I. versicolor
6.1 2.8 4.0 1.3 I. versicolor
6.3 2.5 4.9 1.5 I. versicolor
6.1 2.8 4.7 1.2 I. versicolor
6.4 2.9 4.3 1.3 I. versicolor
6.6 3.0 4.4 1.4 I. versicolor
6.8 2.8 4.8 1.4 I. versicolor
6.7 3.0 5.0 1.7 I. versicolor
6.0 2.9 4.5 1.5 I. versicolor
5.7 2.6 3.5 1.0 I. versicolor
5.5 2.4 3.8 1.1 I. versicolor
5.5 2.4 3.7 1.0 I. versicolor
5.8 2.7 3.9 1.2 I. versicolor
6.0 2.7 5.1 1.6 I. versicolor
5.4 3.0 4.5 1.5 I. versicolor
6.0 3.4 4.5 1.6 I. versicolor
6.7 3.1 4.7 1.5 I. versicolor
6.3 2.3 4.4 1.3 I. versicolor
5.6 3.0 4.1 1.3 I. versicolor
5.5 2.5 4.0 1.3 I. versicolor
5.5 2.6 4.4 1.2 I. versicolor
6.1 3.0 4.6 1.4 I. versicolor
5.8 2.6 4.0 1.2 I. versicolor
5.0 2.3 3.3 1.0 I. versicolor
5.6 2.7 4.2 1.3 I. versicolor
5.7 3.0 4.2 1.2 I. versicolor
5.7 2.9 4.2 1.3 I. versicolor
6.2 2.9 4.3 1.3 I. versicolor
5.1 2.5 3.0 1.1 I. versicolor
5.7 2.8 4.1 1.3 I. versicolor
6.3 3.3 6.0 2.5 I. virginica
5.8 2.7 5.1 1.9 I. virginica
7.1 3.0 5.9 2.1 I. virginica
6.3 2.9 5.6 1.8 I. virginica
6.5 3.0 5.8 2.2 I. virginica
7.6 3.0 6.6 2.1 I. virginica
4.9 2.5 4.5 1.7 I. virginica
7.3 2.9 6.3 1.8 I. virginica
6.7 2.5 5.8 1.8 I. virginica
7.2 3.6 6.1 2.5 I. virginica
6.5 3.2 5.1 2.0 I. virginica
6.4 2.7 5.3 1.9 I. virginica
6.8 3.0 5.5 2.1 I. virginica
5.7 2.5 5.0 2.0 I. virginica
5.8 2.8 5.1 2.4 I. virginica
6.4 3.2 5.3 2.3 I. virginica
6.5 3.0 5.5 1.8 I. virginica
7.7 3.8 6.7 2.2 I. virginica
7.7 2.6 6.9 2.3 I. virginica
6.0 2.2 5.0 1.5 I. virginica
6.9 3.2 5.7 2.3 I. virginica
5.6 2.8 4.9 2.0 I. virginica
7.7 2.8 6.7 2.0 I. virginica
6.3 2.7 4.9 1.8 I. virginica
6.7 3.3 5.7 2.1 I. virginica
7.2 3.2 6.0 1.8 I. virginica
6.2 2.8 4.8 1.8 I. virginica
6.1 3.0 4.9 1.8 I. virginica
6.4 2.8 5.6 2.1 I. virginica
7.2 3.0 5.8 1.6 I. virginica
7.4 2.8 6.1 1.9 I. virginica
7.9 3.8 6.4 2.0 I. virginica
6.4 2.8 5.6 2.2 I. virginica
6.3 2.8 5.1 1.5 I. virginica
6.1 2.6 5.6 1.4 I. virginica
7.7 3.0 6.1 2.3 I. virginica
6.3 3.4 5.6 2.4 I. virginica
6.4 3.1 5.5 1.8 I. virginica
6.0 3.0 4.8 1.8 I. virginica
6.9 3.1 5.4 2.1 I. virginica
6.7 3.1 5.6 2.4 I. virginica
6.9 3.1 5.1 2.3 I. virginica
5.8 2.7 5.1 1.9 I. virginica
6.8 3.2 5.9 2.3 I. virginica
6.7 3.3 5.7 2.5 I. virginica
6.7 3.0 5.2 2.3 I. virginica
6.3 2.5 5.0 1.9 I. virginica
6.5 3.0 5.2 2.0 I. virginica
6.2 3.4 5.4 2.3 I. virginica
5.9 3.0 5.1 1.8 I. virginica

Se han publicado varias versiones del conjunto de datos.[7]

Referencias[editar]

  1. R. A. Fisher (1936). «The use of multiple measurements in taxonomic problems». Annals of Eugenics 7 (2): 179-188. doi:10.1111/j.1469-1809.1936.tb02137.x. Archivado desde el original el 28 de septiembre de 2011. Consultado el 1 de septiembre de 2015. 
  2. Edgar Anderson (1936). «The species problem in Iris». Annals of the Missouri Botanical Garden 23 (3): 457-509. JSTOR 2394164. 
  3. Edgar Anderson (1935). «The irises of the Gaspé Peninsula». Bulletin of the American Iris Society 59: 2-5. 
  4. a b A. N. Gorban, A. Zinovyev. Principal manifolds and graphs in practice: from molecular biology to dynamical systems, International Journal of Neural Systems, Vol. 20, No. 3 (2010) 219–232.
  5. Ines Färber, Stephan Günnemann, Hans-Peter Kriegel, Peer Kröger, Emmanuel Müller, Erich Schubert, Thomas Seidl, Arthur Zimek (2010). «On Using Class-Labels in Evaluation of Clusterings». En Xiaoli Z. Fern, Ian Davidson, Jennifer Dy, ed. MultiClust: Discovering, Summarizing, and Using Multiple Clusterings. ACM SIGKDD. 
  6. A.N. Gorban, N.R. Sumner, and A.Y. Zinovyev, Topological grammars for data approximation, Applied Mathematics Letters Volume 20, Issue 4 (2007), 382-386.
  7. Bezdek, J.C. and Keller, J.M. and Krishnapuram, R. and Kuncheva, L.I. and Pal, N.R. (1999). «Will the real iris data please stand up?». IEEE Transactions on Fuzzy Systems 7 (3): 368-369. doi:10.1109/91.771092. 

Enlaces externos[editar]

  • «Fisher's Iris Data». (Contains two errors which are documented). UCI Machine Learning Repository: Iris Data Set.