Macrodatos

De Wikipedia, la enciclopedia libre
(Redirigido desde «Big data»)
Ir a la navegación Ir a la búsqueda
Un sistema de representación creado por IBM que muestra macrodatos que consisten en las ediciones de Wikipedia realizadas por el bot Pearle, mostrando su visualización más racional al ser acompañada de colores y posiciones en su representación.

Big data, macrodatos ,[1]datos masivos, inteligencia de datos o datos a gran escala es un concepto que hace referencia a un conjuntos de datos tan grandes que aplicaciones informáticas tradicionales de procesamiento de datos no son suficientes para tratar con ellos y los procedimientos usados para encontrar patrones repetitivos dentro de esos datos. Los textos científicos en español con frecuencia se usa directamente el término en inglés big data, tal como aparece en el ensayo de Viktor Schönberger: La revolución de los datos masivos.[2]

La disciplina dedicada a los datos masivos se enmarca en el sector de las tecnologías de la información y la comunicación. Esta disciplina se ocupa de todas las actividades relacionadas con los sistemas que manipulan grandes conjuntos de datos. Las dificultades más habituales vinculadas a la gestión de estas cantidades de datos se centran en la recolección y el almacenamiento,[3]​ búsqueda, compartición, análisis,[4]​ y visualización. La tendencia a manipular enormes cantidades de datos se debe a la necesidad en muchos casos de incluir dicha información para la creación de informes estadísticos y modelos predictivos utilizados en diversas materias, como los análisis de negocio, publicitarios, los datos de enfermedades infecciosas, el espionaje y seguimiento a la población o la lucha contra el crimen organizado.[5]

El límite superior de procesamiento ha ido creciendo a lo largo de los años. Se estima que el mundo almacenó unos 5 zettabytes en 2014. Si se pone esta información en libros, convirtiendo las imágenes y todo eso a su equivalente en letras, se podría hacer 4500 pilas de libros que lleguen hasta el sol.[6]​ Los científicos con cierta regularidad encuentran límites en el análisis debido a la gran cantidad de datos en ciertas áreas, tales como la meteorología, la genómica,[7]​ la conectómica, las complejas simulaciones de procesos físicos[8]​ y las investigaciones relacionadas con los procesos biológicos y ambientales,[9]​ Las limitaciones también afectan a los motores de búsqueda en internet, a los sistemas finanzas y a la informática de negocios. Los data sets crecen en volumen debido en parte a la recolección masiva de información procedente de los sensores inalámbricos y los dispositivos móviles (por ejemplo las VANET), el constante crecimiento de los históricos de aplicaciones (por ejemplo de los registros), cámaras (sistemas de teledetección), micrófonos, lectores de identificación por radiofrecuencia.[10][11]​ La capacidad tecnológica per cápita a nivel mundial para almacenar datos se dobla aproximadamente cada cuarenta meses desde los años 1980.[12]​ Se estima que en 2012 cada día fueron creados cerca de 2.5 trillones de bytes de datos.[13]

Definición[editar]

Big data o macrodatos es un término que hace referencia a una cantidad de datos tal que supera la capacidad del software convencional para ser capturados, administrados y procesados en un tiempo razonable. El volumen de los datos masivos crece constantemente. En 2012 se estimaba su tamaño de entre una docena de terabytes hasta varios petabytes de datos en un único conjunto de datos. En la metodología MIKE2.0 dedicada a investigar temas relacionados con la gestión de información, definen big data[14]​ en términos de permutaciones útiles, complejidad y dificultad para borrar registros individuales.

Se ha definido también como datos lo suficientemente masivos como para poner de relieve cuestiones y preocupaciones en torno a la efectividad del anonimato desde una perspectiva más práctica que teórica.[15]

En 2001, en un informe de investigación que se fundamentaba en congresos y presentaciones relacionadas,[16]​ la META Group (ahora Gartner) definía el crecimiento constante de datos como una oportunidad y un reto para investigar en el volumen, la velocidad y la variedad. Gartner' continúa usando datos masivos como referencia.[17]​ Además, grandes proveedores del mercado de datos masivos están desarrollando soluciones para atender las demandas más críticas sobre cómo procesar tal cantidad de datos, como MapR y Cloudera.

Características[editar]

Los macrodatos se pueden describir por las siguientes características:[18]

  • Volumen: la cantidad de datos generados y guardado. El tamaño de los datos determina el valor y entendimiento potencial, y si los puede considerar como auténticos macrodatos.
  • Variedad: el tipo y naturaleza de los datos para ayudar a las personas a analizar los datos y usar los resultados de forma eficaz. Los macrodatos usan textos imágenes, audio y vídeo. También completan pedazos pedidos a través de la fusión de datos.
  • Velocidad: en este contexto, la velocidad a la cual se generan y procesan los datos para cumplir las exigencias y desafíos de su análisis.
  • Veracidad: la calidad de los datos capturados puede variar mucho y así afectar a los resultados del análisis.

Tecnología[editar]

Existen muchísimas herramientas para tratar con big data. Algunos ejemplos incluyen Hadoop, NoSQL, Cassandra, inteligencia empresarial, aprendizaje automático y MapReduce. Estas herramientas tratan con algunos de los tres tipos de big data:[19]

  • Datos estructurados: datos que tienen bien definidos su longitud y su formato, como las fechas, los números o las cadenas de caracteres. Se almacenan en tablas. Un ejemplo son las bases de datos relacionales y los almacenes de datos.
  • Datos no estructurados: datos en el formato tal y como fueron recolectados, carecen de un formato específico. No se pueden almacenar dentro de una tabla ya que no se puede desgranar su información a tipos básicos de datos. Algunos ejemplos son los PDF, documentos multimedia, correos electrónicos o documentos de texto.
  • Datos semiestructurados: datos que no se limitan a campos determinados, pero que contiene marcadores para separar los diferentes elementos. Es una información poco regular como para ser gestionada de una forma estándar. Estos datos poseen sus propios metadatos semiestructurados[20]​ que describen los objetos y las relaciones entre ellos, y pueden acabar siendo aceptados por convención. Como ejemplos tenemos los archivos tipo hojas de cálculo, HTML, XML o JSON.

Captura[editar]

¿De dónde provienen todos estos datos? Los fabricamos directa e indirectamente segundo tras segundo. Un iPhone hoy en día tiene más capacidad de cómputo que la NASA cuando el hombre llegó a la luna[21]​ por lo que la cantidad de datos generados por persona y en unidad de tiempo es muy grande. Catalogamos la procedencia de los datos según las siguientes categorías:[22]

  • Generados por las propias personas. El hecho de enviar correos electrónicos o mensajes por WhatsApp, publicar un estado en Facebook, publicar relaciones laborales en Linkedin, tuitear contenidos o responder a una encuesta por la calle son cosas que hacemos a diario y que crean nuevos datos y metadatos que pueden ser analizados. Se estima que cada minuto al día se envían más de 200 millones de correos electrónicos, se comparten más de 700 000 piezas de contenido en Facebook, se realizan dos millones de búsquedas en Google o se editan 48 horas de vídeo en YouTube.[23]​ Por otro lado, las trazas de utilización en un sistema ERP, incluir registros en una base de datos o introducir información en una hoja de cálculo son otras formas de generar estos datos.
  • Obtenidas a partir de transacciones. La facturación, tarjetas de fidelización, las llamadas telefónicas, las conexiones torres de telefonía, los accesos a wifis públicas, el pago con tarjetas de crédito o las transacciones entre cuentas bancarias generan información que tratada puede ser datos relevantes. Por ejemplo transacciones bancarias: Lo que el usuario conoce como un ingreso de X euros, el sistema lo capturará como una acción llevada a cabo en una fecha y momento determinado, en un lugar concreto, entre unos usuarios registrados, y con ciertos metadatos.
  • Marketing electrónico y web. Se generan una gran cantidad de datos cuando se navega por internet. Con la web 2.0 se ha roto el paradigma webmaster-contenido-lector y los mismos usuarios se convierten en creadores de contenido gracias a su interacción con el sitio. Existen muchas herramientas de seguimiento utilizadas en su mayoría con fines de mercadotecnia y análisis de negocio. Los movimientos de ratón quedan grabados en mapas de calor y queda registro de cuánto pasamos en cada página y cuándo las visitamos.
  • Obtenidos a partir de las interacciones máquina a máquina (M2M). Son datos obtenidos a partir de la recogida de métricas obtenidas desde dispositivos (medidores, sensores de temperatura, de luz, de altura, de presión, de sonido…) que transforman las magnitudes físicas o químicas y las convierten en datos. Existen desde hace décadas, pero la llegada de las comunicaciones inalámbricas (wifi, Bluetooth, RFID, etc.) ha revolucionado el mundo de los sensores. Algunos ejemplos son los GPS en la automoción, los sensores de signos vitales (muy útil para seguros de vida), pulseras en los festivales[24]​, monitorizadores del funcionamiento y conducción de autoḿoviles (se obtiene información muy útil para la aseguradoras)[25]​, los smartphone (son sensores de localización).
  • Datos biométricos recolectados. En general provienen de servicios de seguridad, defensa y servicios de inteligencia.[26]​ Son cantidades de datos generados por lectores biométricos como escáneres de retina, escáneres de huellas digitales, o lectores de cadenas de ADN. El propósito de estos datos es proporcionar mecanismos de seguridad y suelen estar custodiados por los ministerios de defensa y departamentos de inteligencia. Un ejemplo de aplicación es el cruce de ADN entre una muestra de un crimen y una muestra en nuestra base de datos.

Transformación[editar]

Una vez encontradas las fuentes de los datos necesarios, muy posiblemente dispongamos de un sinfín de tablas de origen que no estarán relacionadas. El siguiente objetivo es hacer que los datos se recojan en un mismo lugar y darles un formato adecuado.

Aquí entran en juego las plataformas extraer, transformar y cargar (ETL). Su propósito es extraer los datos de las diferentes fuentes y sistemas, para después hacer transformaciones (conversiones de datos, limpieza de datos sucios, cambios de formato, etc.) y finalmente cargar los datos en la base de datos o almacén de datos especificada.[27]​ Un ejemplo de plataforma ETL es el Pentaho Data Integration, más concretamente su aplicación Spoon.

Almacenamiento NoSQL[editar]

El término NoSQL se refiere a Not Only SQL (no solo SQL) y son sistemas de almacenamiento que no cumplen con el esquema entidad-relación.[28]​ Proveen un sistema de almacenamiento mucho más flexible y concurrente y permiten manipular grandes cantidades de información de manera mucho más rápida que las bases de datos relacionales.

Distinguimos cuatro grandes grupos de bases de datos NoSQL:

  • Almacenamiento clave-valor (key-value): los datos se almacenan de forma similar a los mapas o diccionarios de datos, donde se accede al dato a partir de una clave única.[29]​ Los valores (datos) son aislados e independientes entre ellos, y no son interpretados por el sistema. Pueden ser variables simples como enteros o caracteres, u objetos. Por otro lado, este sistema de almacenamiento carece de una estructura de datos clara y establecida, por lo que no requiere un formateo de los datos muy estricto.[30]

Son útiles para operaciones simples basadas en las claves. Un ejemplo es el aumento de velocidad de carga de un sitio web que puede utilizar diferentes perfiles de usuario, teniendo mapeados los archivos que hay que incluir según el id de usuario y que han sido calculados con anterioridad. Apache Cassandra es la tecnología de almacenamiento clave-valor más reconocida por los usuarios.[31]

  • Almacenamiento documental: las bases de datos documentales guardan un gran parecido con las bases de datos Clave-Valor, diferenciándose en el dato que guardan. Si en el anterior no se requería una estructura de datos concreta, en este caso guardamos datos semiestructurados.[31]​ Estos datos pasan a llamarse documentos, y pueden estar formateados en XML, JSON, Binary JSON o el que acepte la misma base de datos.
Todos los documentos tienen una clave única con la que pueden ser accedidos e identificados explícitamente. Estos documentos no son opacos al sistema, por lo que pueden ser interpretados y lanzar queries sobre ellos.[29]​ Un ejemplo que aclare cómo se usa lo encontramos en un blog: se almacena el autor, la fecha, el título, el resumen y el contenido del post.

CouchDB o MongoDB[31]​ son quizá las más conocidas. Hay que hacer mención especial a MapReduce, una tecnología de Google inicialmente diseñada para su algoritmo PageRank, que permite seleccionar un subconjunto de datos, agruparlos o reducirlos y cargarlos en otra colección, y a Hadoop que es una tecnología de Apache diseñada para almacenar y procesar grandes cantidades de datos.

  • Almacenamiento en grafo: las bases de datos en grafo rompen con la idea de tablas y se basan en la teoría de grafos, donde se establece que la información son los nodos y las relaciones entre la información son las aristas,[31]​ algo similar al modelo relacional. Su mayor uso se contempla en casos de relacionar grandes cantidades de datos que pueden ser muy variables. Por ejemplo, los nodos pueden contener objetos, variables y atributos diferentes en unos y otros. Las operaciones de join se sustituyen por recorridos a través del grafo, y se guarda una lista de adyacencias entre los nodos.[29]​ Encontramos un ejemplo en las redes sociales: en Facebook cada nodo se considera un usuario, que puede tener aristas de amistad con otros usuarios, o aristas de publicación con nodos de contenidos. Soluciones como Neo4J y GraphDB[31]​ son las más conocidas dentro de las bases de datos en grafo.
  • Almacenamiento orientado a columnas: por último, este almacenamiento es parecido al documental. Su modelo de datos es definido como «un mapa de datos multidimensional poco denso, distribuido y persistente».[29]​ Se orienta a almacenar datos con tendencia a escalar horizontalmente, por lo que permite guardar diferentes atributos y objetos bajo una misma clave. A diferencia del documental y el clave-valor, en este caso se pueden almacenar varios atributos y objetos, pero no serán interpretables directamente por el sistema. Permite agrupar columnas en familias y guardar la información cronológicamente, mejorando el rendimiento. Esta tecnología se acostumbra a usar en casos con 100 o más atributos por clave.[31]​ Su precursor es BigTable de Google, pero han aparecido nuevas soluciones como HBase o HyperTable.

Análisis de datos[editar]

El análisis permite mirar los datos y explicar lo que esta pasando. Teniendo los datos necesarios almacenados según diferentes tecnologías de almacenamiento, nos daremos cuenta que necesitaremos diferentes técnicas de análisis de datos como las siguientes:

  • Asociación: permite encontrar relaciones entre diferentes variables.[32]​ Bajo la premisa de causalidad, se pretende encontrar una predicción en el comportamiento de otras variables. Estas relaciones pueden ser los sistemas de ventas cruzadas en los comercios electrónicos.
  • Minería de datos (data mining): tiene como objetivo encontrar comportamientos predictivos. Engloba el conjunto de técnicas que combina métodos estadísticos y de aprendizaje automático con almacenamiento en bases de datos.[33]​ Está estrechamente relacionada con los modelos utilizados para descubrir patrones en grandes cantidades de datos.
  • Agrupación (clustering): el análisis de clústeres es un tipo de minería de datos que divide grandes grupos de individuos en grupos más pequeños de los cuales no conocíamos su parecido antes del análisis.[33]​ El propósito es encontrar similitudes entre estos grupos, y el descubrimiento de nuevos, conociendo cuáles son las cualidades que lo definen. Es una metodología apropiada para encontrar relaciones entre resultados y hacer una evaluación preliminar de la estructura de los datos analizados. Existen diferentes técnicas y algoritmos de clusterización.[34]
  • Análisis de texto (text analytics): gran parte de los datos generados por las personas son textos, como correos, búsquedas web o contenidos. Esta metodología permite extraer información de estos datos y así modelar temas y asuntos o predecir palabras.[35]

Visualización de datos[editar]

Esto es una infografía

Tal y como el Instituto Nacional de Estadística dice en sus tutoriales, «una imagen vale más que mil palabras, o que mil datos». La mente agradece mucho más una presentación bien estructurada de resultados estadísticos en gráficos o mapas en vez de en tablas con números y conclusiones. En los macrodatos se llega un paso más allá: parafraseando a Edward Tufte, uno de los expertos en visualización de datos más reconocidos a nivel mundial «el mundo es complejo, dinámico, multidimensional, el papel es estático y plano. ¿Cómo vamos a representar la rica experiencia visual del mundo en la mera planicie?». Mondrian[36]​ es una plataforma que permite visualizar la información a través de los análisis llevados a cabo sobre los datos que disponemos. Con esta plataforma se intenta llegar a un público más concreto, y una utilidad más acotada como un cuadro de mando integral de una organización. Por otro lado, las infografías se han vuelto un fenómeno viral, donde se recogen los resultados de los diferentes análisis sobre nuestros datos, y son un material atractivo, entretenido y simplificado para audiencias masivas.[37]

Aplicaciones[editar]

El uso de Big Data ha sido utilizado por la industria de los medios, las empresas y los gobiernos para dirigirse con mayor precisión a su público y aumentar la eficiencia de sus mensajes.

Gobierno[editar]

El uso y la adopción de big data dentro de los procesos gubernamentales permite eficiencias en términos de costo, productividad e innovación, pero no viene sin sus defectos[38]​. El análisis de datos a menudo requiere que varias partes del gobierno (central y local) trabajen en colaboración y creen procesos nuevos para lograr el resultado deseado.

Los datos masivos se usan habitualmente para influenciar el proceso democrático. Los representantes del pueblo pueden ver todo lo que hacen los ciudadanos, y los ciudadanos pueden dictar la vida pública de los representantes mediante tuits y otros métodos de extender ideas en la sociedad. Las campañas presidenciales de Obama y Trump los usaron de manera generalizada[6]​ y hay expertos que advierten de que hay que «reinventar la democracia representativa. Si no, es posible que se convierta en una dictadura de la información»[39]​.

Desarrollo internacional[editar]

La investigación sobre el uso efectivo de las tecnologías de información y comunicación para el desarrollo (también conocido como ICT4D) sugiere que la tecnología de big data puede hacer contribuciones importantes pero también presentar desafíos únicos para el desarrollo internacional.[40][41]​ Los avances en el análisis de big data ofrecen oportunidades rentables para mejorar la toma de decisiones en áreas de desarrollo críticas como la atención médica, el empleo, la productividad económica, la delincuencia, la seguridad y el manejo de recursos y desastres naturales.[42]​ Además, los datos generados por el usuario ofrecen nuevas oportunidades para ofrecer una voz inaudita. Sin embargo, los desafíos de larga data para las regiones en desarrollo, como la infraestructura tecnológica inadecuada y la escasez de recursos económicos y humanos exacerban las preocupaciones existentes con los grandes datos, como la privacidad, la metodología imperfecta y los problemas de interoperabilidad.[42]

Industria[editar]

El big data proporciona una infraestructura para la transparencia en la industria manufacturera, que es la capacidad de desentrañar incertidumbres como el rendimiento y la disponibilidad de componentes inconsistentes. La fabricación predictiva como un enfoque aplicable para el tiempo de inactividad y la transparencia cercanos a cero requiere una gran cantidad de datos y herramientas de predicción avanzadas para un proceso sistemático de datos en información útil.[43]​ Un marco conceptual de fabricación predictiva comienza con la adquisición de datos donde se encuentran disponibles diferentes tipos de datos sensoriales, tales como acústica, vibración, presión, corriente, voltaje y datos de controlador. Una gran cantidad de datos sensoriales, además de los datos históricos, construyen los grandes datos en la fabricación. Los big data generados actúan como la entrada en herramientas predictivas y estrategias preventivas como Pronósticos y Gestión de Salud (PHM).[44]

Medios[editar]

Los profesionales en medios y publicidad abordan los grandes datos como muchos puntos de información procesables sobre millones de personas. La industria parece alejarse del enfoque tradicional de utilizar entornos de medios específicos, como periódicos, revistas o programas de televisión, y en su lugar aprovecha a los consumidores con tecnologías que llegan a las personas objetivo en momentos óptimos en ubicaciones óptimas. El objetivo final es servir o transmitir, un mensaje o contenido que (estadísticamente hablando) esté en línea con la mentalidad del consumidor. Por ejemplo, los entornos de publicación adaptan cada vez más los mensajes (anuncios publicitarios) y el contenido (artículos) para atraer a los consumidores que han sido recolectados exclusivamente a través de diversas actividades de extracción de datos.[45]

Seguros[editar]

Los proveedores de seguro médico recopilan datos sobre "determinantes sociales", como el consumo de alimentos y televisión, el estado civil, el tamaño de la vestimenta y los hábitos de compra, desde los cuales hacen predicciones sobre los costos de salud para detectar problemas de salud en sus clientes. Es controvertido si estas predicciones se están utilizando actualmente para fijar precios.[47]

Deportes[editar]

En un ámbito donde se mueve tanto dinero, suelen utilizar las nuevas tecnologías antes que los usuarios de base. Nos encontramos por ejemplo que el análisis de los partidos constituye una parte fundamental en el entrenamiento de los profesionales, y la toma de decisiones de los entrenadores.

Amisco[48]​ es un sistema aplicado por los más importantes equipos de las ligas Española, Francesa, Alemana e Inglesa desde el 2001. Consta de 8 cámaras y diversos ordenadores instalados en los estadios, que registran los movimientos de los jugadores a razón de 25 registros por segundo, y luego envían los datos a una central donde hacen un análisis masivo de los datos. La información que se devuelve como resultado incluye una reproducción del partido en dos dimensiones, los datos técnicos y estadísticas, y un resumen de los datos físicos de cada jugador, permitiendo seleccionar varias dimensiones y visualizaciones diferentes de datos.[48]

Investigación[editar]

Salud y medicina

Hacia mediados 2009, el mundo experimentó una pandemia de gripe A, llamada gripe porcina o H1N1. La web Google Flu Trends fue capaz de predecirla gracias a los resultados de las búsquedas. Flu Trends usa los datos de las búsquedas de los usuarios que contienen síntomas parecidos a la enfermedad de la gripe y los agrupa según ubicación y fecha, y es capaz de predecir la actividad de la gripe hasta con dos semanas de antelación más que los sistemas tradicionales.

Más concretamente en Nueva Zelanda[49]​ cruzaron los datos de las tendencias de gripe de Google con datos existentes de los sistemas de salud nacionales, y comprobaron que estaban alineados. Los gráficos mostraron una correlación con las búsquedas de síntomas relacionados con la gripe y la extensión de la pandemia en el país. Los países con sistemas de predicción poco desarrollados pueden beneficiarse de una predicción fiable y pública para abastecer a su población de las medidas de seguridad oportunas.


Defensa y seguridad

Para incrementar la seguridad frente a los ataques de las propias organizaciones, ya sean empresas en el entorno económico o los propios ministerios de defensa en el entorno de ciberataques, se contempla la utilidad de las tecnologías de big data en escenarios como la vigilancia y seguridad de fronteras, lucha contra el terrorismo y crimen organizado, contra el fraude, planes de seguridad ciudadana o planeamiento táctico de misiones e inteligencia militar.[50]


Caso específico del proyecto Aloja

Una de las máquinas del Marenostrum, Supercomputador del BSC

El proyecto Aloja[51]​ ha sido iniciado por una apuesta en común del Barcelona Supercomputing Center (BSC) y Microsoft Research. El objetivo de este proyecto de big data quiere «conseguir una optimización automática en despliegues de Hadoop en diferentes infraestructuras». [40]

Caso específico de sostenibilidad

Conservation International es una organización con el propósito de concienciar a la sociedad de cuidar el entorno de una manera responsable y sostenible. Con la ayuda de la plataforma Vertica Analytics de HP, han situado 1000 cámaras a lo largo de dieciséis bosques en cuatro continentes. Estas cámaras incorporan unos sensores, y a modo de cámara oculta graban el comportamiento de la fauna. Con estas imágenes y los datos de los sensores (precipitaciones, temperatura, humedad, solar…) consiguen información sobre cómo el cambio climático o el desgaste de la tierra afecta en su comportamiento y desarrollo.[52]

Virtualización de big data[editar]

La virtualización de big data es una forma de recopilar información de múltiples fuentes en el mismo lugar. El ensamblaje es virtual: a diferencia de otros métodos, la mayoría de los datos permanecen en su lugar y se toman bajo demanda directamente desde el sistema de origen.[53]

Véase también[editar]

Referencias[editar]

  1. «macrodatos e inteligencia de datos, alternativas a big data». Consultado el 11 de abril de 2017. 
  2. «"Los datos masivos (o big data) son el nuevo oro"». eldiario.es. Consultado el 23 de mayo de 2017. 
  3. Kusnetzky, Dan. What is "Big Data?". ZDNet. http://blogs.zdnet.com/virtualization/?p=1708
  4. Vance, Ashley. Start-Up Goes After Big Data With Hadoop Helper. New York Times Blog. 22 de abril de 2010. http://bits.blogs.nytimes.com/2010/04/22/start-up-goes-after-big-data-with-hadoop-helper/?dbk
  5. Cukier, K. (25 February 2010). «Data, data everywhere». The Economist. http://www.economist.com/specialreports/displaystory.cfm?story_id=15557443
  6. a b Martin Hilbert, experto en redes digitales: “Obama y Trump usaron el Big Data para lavar cerebros” http://www.theclinic.cl/2017/01/19/martin-hilbert-experto-redes-digitales-obama-trump-usaron-big-data-lavar-cerebros/
  7. Community cleverness required. Nature, 455(7209), 1. 2008. http://www.nature.com/nature/journal/v455/n7209/full/455001a.html
  8. Sandia sees data management challenges spiral. HPC Projects. 4 August 2009. «Copia archivada». Archivado desde el original el 11 de mayo de 2011. Consultado el 22 de abril de 2011. 
  9. Reichman,O.J., Jones, M.B., and Schildhauer, M.P. 2011. Challenges and Opportunities of Open Data in Ecology. Science 331(6018): 703-705.DOI:10.1126/science.1197962
  10. Hellerstein, Joe. Parallel Programming in the Age of Big Data. Gigaom Blog. 9 November 2008. http://gigaom.com/2008/11/09/mapreduce-leads-the-way-for-parallel-programming/
  11. Segaran, Toby and Hammerbacher, Jeff. Beautiful Data. 1st Edition. O'Reilly Media. Pg 257.
  12. «The World’s Technological Capacity to Store, Communicate, and Compute Information.» Martin Hilbert y Priscila López (2011), Science, 332(6025), 60-65; free access to the article through here: martinhilbert.net/WorldInfoCapacity.html
  13. [1]
  14. Big Data Definition
  15. Douglas Patterson (2012), Big Ethics for Big Data 
  16. Douglas, Laney. «3D Data Management: Controlling Data Volume, Velocity and Variety». Gartner. Consultado el 6 de febrero de 2001. 
  17. Beyer, Mark. «Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data». Gartner. Consultado el 13 de julio de 2011. 
  18. Big Data's Fourth V
  19. Purcell, Bernice (2013). «The emergence of Big Data technology and Analytics». Holy Family University. 
  20. Lopez García, David (2012-2013). Analysis of the possibilities of use of Big Data in organizations. Archivado desde el original el 1 de enero de 2015. Consultado el 18 de octubre de 2014. 
  21. Paniagua, Soraya (Junio - septiembre 2013). «A world of sensors, from Data to Big Data». Revista Telos. 
  22. “Conceptos básicos de Big Data”, TRC Informática SL, 2013.
  23. Paniagua, Soraya (junio-septiembre 2013). «A world of sensors, from Data to Big Data». Revista Telos. 
  24. Big Data en los Festivales de Música. The Box Populi. 8 de Marzo 2018
  25. Tecnología IoT y big data: el futuro del sector asegurador. 15 de febrero de 2018
  26. Kohlwey, Edmund; Sussman, Abel; Trost, Jason; Maurer, Amber (2011). «Leveraging the Cloud for Big Data Biometrics». IEEE World Congress on Services. 
  27. Tomsen, Christian; Pedersen, Torben Bach (2009). «pygrametl: A Powerful Programming Framework for Extract–Transform–Load Programmers». 1DB Technical Report; No. 25, Department of Computer Science, Aalborg University. 
  28. Martín, Adriana; Chávez, Susana; Rodríguez, Nelson R.; Valenzuela, Adriana; Murazzo, Maria A. (2013). «Bases de datos NoSql en cloud computing». WICC. Consultado el 18 de octubre de 2014. 
  29. a b c d Hecht, Robin; Jablonski, Stefan (2011). «NoSQL Evaluation, a use case oriented survey». International Conference on Cloud and Service Computing. 
  30. Seeger, Marc (21 de septiembre de 2009). Key-Value stores: a practical overview. Consultado el 1 de enero de 2015. 
  31. a b c d e f Bianchi Widder, Maria Belén (septiembre de 2012). «Els beneficis de l’ús de tecnologies NoSQL». UPCommons. Consultado el 1 de enero de 2015. 
  32. Vila, M Amparo; Sanchez, Daniel; Escobar, Luis (2004). «Relaciones Causales en Reglas de Asociación». XII Congreso Español sobre tecnologías y lógica Fuzzy. 
  33. a b Manyika, James; Chui, Michael; Brown, Brad; Bughin, Jacques; Dobbs, Richard; Roxburgh, Charles; Byers, Angela Hung (Mayo de 2011). «Big data: The next frontier for innovation, competition, and productivity». McKinsey. Consultado el 1 de enero de 2015. 
  34. Jain, A.K.; Murty, M.N.; Flynn, P.J. (septiembre de 1999). «Data Clustering: A Review». ACM Computing Surveys 31 (3). Consultado el 1 de enero de 2015. 
  35. Maltby, Dylan (9 de octubre de 2011). «Big Data Analytics». ASIST 2011 (New Orleans). 
  36. Theus, Martin (2003). «Interactive Data Visualization using Mondrian». Journal of Statistical Software. 
  37. Albarracín, Pablo (12 de agosto de 2013). «Visualización avanzada de datos: La belleza del Big Data». Revista América Economía Tecno. Archivado desde el original el 1 de enero de 2015. Consultado el 18 de octubre de 2014. 
  38. Davis, Aaron. «The government and big data: Use, problems and potential». Computerworld (en inglés). Consultado el 27 de agosto de 2018. 
  39. Lissardy, Gerardo (6 de abril de 2017). «Martin Hilbert, gurú del Big Data: "La democracia no está preparada para la era digital y está siendo destruida"». BBC News Mundo (en inglés británico). Consultado el 27 de agosto de 2018. 
  40. «White Paper: Big Data for Development: Opportunities & Challenges (2012) | United Nations Global Pulse». www.unglobalpulse.org (en inglés). Consultado el 27 de agosto de 2018. 
  41. «Big Data, Big Impact: New Possibilities for International Development». World Economic Forum. Consultado el 27 de agosto de 2018. 
  42. a b Hilbert, Martin (2013). «Big Data for Development: From Information - to Knowledge Societies». SSRN Electronic Journal (en inglés). ISSN 1556-5068. doi:10.2139/ssrn.2205145. Consultado el 27 de agosto de 2018. 
  43. «Prognostics and health management design for rotary machinery systems—Reviews, methodology and applications». Mechanical Systems and Signal Processing (en inglés) 42 (1-2): 314-334. 1 de enero de 2014. ISSN 0888-3270. doi:10.1016/j.ymssp.2013.06.004. Consultado el 27 de agosto de 2018. 
  44. «Prognostic and Health Management Technology for MOCVD Equipment». Industrial Technology Research Institute (en inglés). Consultado el 27 de agosto de 2018. 
  45. Nick, Couldry, (2014). «Advertising, big data and the clearance of the public realm: marketers' new approaches to the content subsidy». eprints.lse.ac.uk (en inglés). Consultado el 27 de agosto de 2018. 
  46. «Why Digital Advertising Agencies Suck at Acquisition and are in Dire Need of an AI Assisted Upgrade». Insincerely Yours (en inglés estadounidense). 15 de abril de 2018. Consultado el 27 de agosto de 2018. 
  47. Allen, Marshall (17 de julio de 2018). «Health Insurers Are Vacuuming Up Details About You — And It Could Raise Your Rates — ProPublica». ProPublica (en inglés estadounidense). Consultado el 27 de agosto de 2018. 
  48. a b Reilly, Thomas; Korkusuz, Feza (2009). Science and Football VI. The proceedings of the Sixth World Congress on Science and Football. p. 209. ISBN 0-203-89368-9. Archivado desde el original el 1 de enero de 2015. 
  49. Wilson, N; Mason, M; Tobias, M; Peacey, M; Huang, Q S; Baker, M (Eurosurveillance Edition 2009). «Interpreting “Google Flu Trends” data for pandemic H1N1 influenza: The New Zealand Experience». Eurosurveillance Edition 2009. 14 / Issue 44 (4). 
  50. Carrillo Ruiz, Jose Antonio; Marco de Lucas, Jesus E.; Cases Vega, Fernando; Dueñas Lopez, Juan Carlos; Cristino Fernandez, Jose; Gonzalez Muñoz de Morales, Guillermo; Pereda Laredo, Luis Fernando (Marzo de 2013). «Big Data en los entornos de Defensa y Seguridad». Instituto Español de Estudios Estratégicos. 
  51. «El BSC y Microsoft Research Center optimizarán Big Data con el proyecto Aloja». Computing. 31 de julio de 2014. Consultado el 1 de enero de 2015. 
  52. How Big Data Is Helping to Save the Planet.. 15 de septiembre de 2014. 
  53. «What Is Data Virtualization?». www.datawerks.com (en inglés estadounidense). Consultado el 14 de mayo de 2018. 

Enlaces externos[editar]