Big data

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda
Un sistema de representación de datos creado por IBM muestra el big data que consiste en las ediciones de Wikipedia realizadas por el bot Pearle, mostrando su visualización más racional al ser acompañada de colores y posiciones en su representación.

Big Data (del idioma inglés grandes datos[1] [2] ) es en el sector de tecnologías de la información y la comunicación una referencia a los sistemas que manipulan grandes conjuntos de datos (o data sets). Las dificultades más habituales en estos casos se centran en la captura, el almacenamiento,[3] búsqueda, compartición, análisis,[4] y visualización. La tendencia a manipular ingentes cantidades de datos se debe a la necesidad en muchos casos de incluir los datos relacionados del análisis en un gran conjunto de datos relacionado, tal es el ejemplo de los análisis de negocio, los datos de enfermedades infecciosas, o la lucha contra el crimen organizado.[5]

El límite superior de procesamiento se ha ido desplazando a lo largo de los años, de esta forma los límites que estaban fijados en 2008 rondaban los órdenes de petabytes a zettabytes de datos.[6] Los científicos con cierta regularidad encuentran limitaciones debido a la gran cantidad de datos en ciertas áreas, tales como la meteorología, la genómica,[7] la conectómica, las complejas simulaciones de procesos físicos,[8] y las investigaciones relacionadas con los procesos biológicos y ambientales,[9] Las limitaciones también afectan a los motores de búsqueda en internet, a los sistemas finanzas y a la informática de negocios. Los data sets crecen en volumen debido en parte a la introducción de información ubicua procedente de los sensores inalámbricos y los dispositivos móviles (por ejemplo las VANETs), del constante crecimiento de los históricos de aplicaciones (por ejemplo de los logs), cámaras (sistemas de teledetección), micrófonos, lectores de radio-frequency identification.[10] [11] La capacidad tecnológica per-cápita a nivel mundial para almacenar datos se dobla aproximadamente cada cuarenta meses desde los años ochenta.[12] Se estima que en 2012 cada día fueron creados cerca de 2,5 trillones de bytes de datos (del inglés quintillion, 2.5×1018).[13]

Definición[editar]

"Big data" es un término aplicado a conjuntos de datos que superan la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable. Los tamaños del "big data" se hallan constantemente en aumento. En 2012 se dimensionaba su tamaño en una docena de terabytes hasta varios petabytes de datos en un único data set. En la metodología MIKE2.0 dedicada a investigar temas relacionados con la gestión de información, definen big data en términos de permutaciones útiles, complejidad y dificultad para borrar registros individuales.

En 2001, en un informe de investigación que se fundamentaba en congresos y presentaciones relacionadas,[14] el analista Doug Laney del META Group (ahora Gartner) definía el crecimiento constante de datos como una oportunidad y un reto para investigar en el volumen, la velocidad y la variedad. Gartner continúa usando big data como referencia de este.[15] Además, grandes proveedores del mercado de big data están desarrollando soluciones para atender las demandas más críticas de procesamiento de datos masivos, como MapR, Cyttek Group y Cloudera.

Referencias[editar]

  1. White, Tom. Hadoop: The Definitive Guide. 2009. 1st Edition. O'Reilly Media. Pg 3.
  2. MIKE2.0, Big Data Definition http://mike2.openmethodology.org/wiki/Big_Data_Definition
  3. Kusnetzky, Dan. What is "Big Data?". ZDNet. http://blogs.zdnet.com/virtualization/?p=1708
  4. Vance, Ashley. Start-Up Goes After Big Data With Hadoop Helper. New York Times Blog. 22 April 2010. http://bits.blogs.nytimes.com/2010/04/22/start-up-goes-after-big-data-with-hadoop-helper/?dbk
  5. Cukier, K. (25 February 2010). Data, data everywhere. The Economist. http://www.economist.com/specialreports/displaystory.cfm?story_id=15557443
  6. Horowitz, Mark. Visualizing Big Data: Bar Charts for Words. Wired Magazine. Vol 16 (7). 23 June 2008. http://www.wired.com/science/discoveries/magazine/16-07/pb_visualizing##ixzz0llT2DN5j. Volu 16(7)
  7. Community cleverness required. Nature, 455(7209), 1. 2008. http://www.nature.com/nature/journal/v455/n7209/full/455001a.html
  8. Sandia sees data management challenges spiral. HPC Projects. 4 August 2009. http://www.hpcprojects.com/news/news_story.php?news_id=922
  9. Reichman,O.J., Jones, M.B., and Schildhauer, M.P. 2011. Challenges and Opportunities of Open Data in Ecology. Science 331(6018): 703-705.DOI:10.1126/science.1197962
  10. Hellerstein, Joe. Parallel Programming in the Age of Big Data. Gigaom Blog. 9 November 2008. http://gigaom.com/2008/11/09/mapreduce-leads-the-way-for-parallel-programming/
  11. Segaran, Toby and Hammerbacher, Jeff. Beautiful Data. 1st Edition. O'Reilly Media. Pg 257.
  12. "The World’s Technological Capacity to Store, Communicate, and Compute Information", Martin Hilbert and Priscila López (2011), Science (journal), 332(6025), 60-65; free access to the article through here: martinhilbert.net/WorldInfoCapacity.html
  13. http://www-01.ibm.com/software/data/bigdata/
  14. Douglas, Laney. «3D Data Management: Controlling Data Volume, Velocity and Variety». Gartner. Consultado el 6 de febrero de 2001.
  15. Beyer, Mark. «Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data». Gartner. Consultado el 13 de julio de 2011.

Enlaces externos[editar]