Conjunto de datos
Un conjunto de datos (conocido también por el anglicismo: dataset, comúnmente utilizado en algunos países hispanohablantes) es una colección de datos habitualmente tabulada.
En general y en su versión más simple, un conjunto de datos corresponde a los contenidos de una única tabla de base de datos o una única matriz de datos estadística, donde cada columna de la tabla representa una variable en particular, y cada fila representa a un miembro determinado del conjunto de datos en cuestión.
Un conjunto de datos contiene los valores para cada una de las variables, como por ejemplo la altura y el peso de un objeto, que corresponden a cada miembro del conjunto de datos. Cada uno de estos valores se conoce con el nombre de dato. El conjunto de datos puede incluir datos para uno o más miembros en función de su número de filas.
Conjuntos de datos tan grandes que aplicaciones tradicionales de procesamiento de datos no los pueden tratar se llaman big data.[1]
Método científico[editar]
La publicación de los conjuntos de datos usados en un experimento son clave para su reproducibilidad, y cada vez son más las leyes públicas y normas de revistas científicas que obligan a hacerlos públicos, para evitar sesgos.
Propiedades[editar]
Según el estudio, es un factor clave de las propiedades del conjunto: dispersión, kurtosis, etc.
Véase también[editar]
Referencias[editar]
- ↑ Snijders, C.; Matzat, U.; Reips, U.-D. (2012). «'Big Data': Big gaps of knowledge in the field of Internet». International Journal of Internet Science 7: 1-5.
Enlaces externos[editar]
- Research Pipeline Wiki que enlaza conjuntos de datos de diversos temas.
- GCMD Web del Global Change Master Directory. Contiene más de 20.000 conjuntos de datos sobre la Tierra.