Big data

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda
Un sistema de representación de datos creado por IBM muestra el big data que consiste en las ediciones de Wikipedia realizadas por el bot Pearle, mostrando su visualización más racional al ser acompañada de colores y posiciones en su representación.

Este concepto hace referencia a la acumulación masiva de datos. Otras denominaciones son datos masivos o datos a gran escala. En la literatura escrita en lengua hispana con frecuencia se utiliza el término en inglés Big data, como aparece en el ensayo de Viktor Schönberger Big data: La revolución de los datos masivos.[1]

La disciplina dedicada a los datos masivos se enmarca en el sector de las tecnologías de la información y la comunicación. Esta disciplina se ocupa de todas las actividades relacionadas con los sistemas que manipulan grandes conjuntos de datos. Las dificultades más habituales vinculadas a la gestión de estas cantidades de datos se centran en la captura, el almacenamiento,[2] búsqueda, compartición, análisis,[3] y visualización. La tendencia a manipular ingentes cantidades de datos se debe a la necesidad en muchos casos de incluir los datos relacionados del análisis en un gran conjunto de datos, como los análisis de negocio, los datos de enfermedades infecciosas o la lucha contra el crimen organizado.[4]

El límite superior de procesamiento se ha ido desplazando a lo largo de los años. De esta forma, los límites fijados en 2008 rondaban el orden de petabytes a zettabytes de datos.[5] Los científicos con cierta regularidad encuentran limitaciones debido a la gran cantidad de datos en ciertas áreas, tales como la meteorología, la genómica,[6] la conectómica, las complejas simulaciones de procesos físicos[7] y las investigaciones relacionadas con los procesos biológicos y ambientales,[8] Las limitaciones también afectan a los motores de búsqueda en internet, a los sistemas finanzas y a la informática de negocios. Los data sets crecen en volumen debido en parte a la introducción de información ubicua procedente de los sensores inalámbricos y los dispositivos móviles (por ejemplo las VANETs), del constante crecimiento de los históricos de aplicaciones (por ejemplo de los logs), cámaras (sistemas de teledetección), micrófonos, lectores de radio-frequency identification.[9] [10] La capacidad tecnológica per-cápita a nivel mundial para almacenar datos se dobla aproximadamente cada cuarenta meses desde los años ochenta.[11] Se estima que en 2012 cada día fueron creados cerca de 2,5 trillones de bytes de datos (del inglés quintillion, 2.5×1018).[12]

Definición[editar]

Datos masivos es un término que hace referencia a una cantidad de datos tal que supera la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable. El volumen de los datos masivos crece constantemente. En 2012 se estimaba su tamaño de entre una docena de terabytes hasta varios petabytes de datos en un único conjunto de datos. En la metodología MIKE2.0 dedicada a investigar temas relacionados con la gestión de información, definen big data en términos de permutaciones útiles, complejidad y dificultad para borrar registros individuales.

En 2001, en un informe de investigación que se fundamentaba en congresos y presentaciones relacionadas,[13] el analista Doug Laney del META Group (ahora Gartner) definía el crecimiento constante de datos como una oportunidad y un reto para investigar en el volumen, la velocidad y la variedad. Gartner continúa usando datos masivos como referencia.[14] Además, grandes proveedores del mercado de datos masivos están desarrollando soluciones para atender las demandas más críticas de cómo procesar tal cantidad de datos, como MapR, Cyttek Group y Cloudera.

Tecnología[editar]

Existen muchísimas herramientas para tratar con Big Data. Nombres como Hadoop, NoSQL, Cassandra, Business Intelligence, Machine Learning, MapReduce… son sólo algunos de los más conocidos. Ellos tratan con algunos de los tres tipos de Big Data [15] :

Datos estructurados (Structured Data): Datos que tienen bien definidos su longitud y su formato, como las fechas, los números o las cadenas de caracteres. Se almacenan en tablas. Un ejemplo son las bases de datos relacionales y las hojas de cálculo.

Datos no estructurados (Unstructured Data): Datos en el formato tal y como fueron recolectados, carecen de un formato específico. No se pueden almacenar dentro de una tabla ya que no se puede desgranar su información a tipos básicos de datos. Algunos ejemplos son los PDF, documentos multimedia, e-mails o documentos de texto.

Datos semiestructurados (Semistructured Data): Datos que no se limitan a campos determinados, pero que contiene marcadores para separar los diferentes elementos. Es una información poco regular como para ser gestionada de una forma estándar. Estos datos poseen sus propios metadatos semiestructurados [16] que describen los objetos y las relaciones entre ellos, y pueden acabar siendo aceptados por convención. Un ejemplo es el HTML, el XML o el JSON.

Captura[editar]

¿De dónde provienen todos éstos datos? Los fabricamos directa e indirectamente segundo tras segundo. Un iPhone hoy en día tiene más capacidad de computación que la NASA cuando el hombre llegó a la luna [17] por lo que la cantidad de datos generados por persona y unidad de tiempo es inmensa. Catalogamos la procedencia de los datos según las siguientes categorías [18] :
Generados por las personas: Enviar correos electrónicos por e-mail o mensajes por WhatsApp, postear en Facebook, tuitear contenidos o responder a una encuesta por la calle son algunas acciones cuotidianas que crean nuevos datos y metadatos que pueden ser analizados. Se estima que cada minuto al día se envían más de 200 millones de e-mails, se comparten más de 700.000 piezas de contenido en Facebook, se realizan dos millones de búsquedas en Google o se editan 48 horas de vídeo en YouTube [19] . Por otro lado, las trazas de utilización en un sistema ERP, incluir registros en una base de datos o introducir información en una hoja de cálculo son otras formas de generar éstos datos.
Transacciones de datos: La facturación, las llamadas o las transacción entre cuentas generan información que tratada pueden ser datos relevantes. Un ejemplo más claro lo encontraremos en las transacciones bancarias: lo que el usuario conoce como un ingreso de X euros, la computación lo interpretará como una acción llevada a cabo en una fecha y momento determinado, en un lugar concreto, entre unos usuarios registrados, y más metadatos.
E-marketing y web: Generamos una gran cantidad de datos cuando navegamos por internet. Con la web 2.0 se ha roto el paradigma webmaster-contenido-lector y los mismos usuarios se convierten en creadores de contenido gracias a su interacción con el sitio. Existen muchas herramientas de tracking utilizadas en su mayoría con fines de marketing y análisis de negocio. Los movimientos de ratón quedan grabados en mapas de calor y queda registro de cuánto pasamos en cada página y cuándo las visitamos.
Machine to Machine (M2M): Son las tecnologías que comparten datos con dispositivos: medidores, sensores de temperatura, de luz, de altura, de presión, de sonido… que transforman las magnitudes físicas o químicas y las convierten en datos. Existen desde hace décadas, pero la llegada de las comunicaciones inalámbricas (Wi-Fi, Bluetooth, RFID…) ha revolucionado el mundo de los sensores. Algunos ejemplos son los GPS en la automoción o los sensores de signos vitales en la medicina.
Biométrica: Son el conjunto de datos que provienen de la seguridad, defensa y servicios de inteligencia [20] . Son cantidades de datos generados por lectores biométricos como escáneres de retina, escáneres de huellas digitales, o lectores de cadenas de ADN. El propósito de estos datos es proporcionar mecanismos de seguridad y suelen estar custodiadas por los ministerios de defensa y departamentos de inteligencia. Un ejemplo de aplicación es el cruce de ADN entre una muestra de un crimen y una muestra en nuestra base de datos.

Transformación[editar]

Una vez encontradas las fuentes de los datos necesarios, muy posiblemente dispongamos de un sinfín de tablas de origen sin estar relacionadas. El siguiente objetivo consta en hacer que los datos se recojan en un mismo lugar y darles un formato.

Aquí entran en juego las plataformas ETL (Extract, Transform and Load). Su propósito es extraer los datos de las diferentes fuentes y sistemas, para después hacer transformaciones (conversiones de datos, limpieza de datos sucios, cambios de formato…) y finalmente cargar los datos en la base de datos o Data Warehouse especificada [21] . Un ejemplo de plataforma ETL es el Pentaho Data Integration, más concretamente su aplicación Spoon.

Almacenamiento NoSQL[editar]

El término NoSQL se refiere a Not Only SQL y son sistemas de almacenamiento que no cumplen con el esquema entidad-relación [22] . Proveen un sistema de almacenamiento mucho más flexible y concurrente y permiten manipular grandes cantidades de información de manera mucho más rápida que las bases de datos relacionales.

Distinguimos cuatro grandes grupos de bases de datos NoSQL:

Almacenamiento Clave-Valor (Key-Value): Los datos se almacenan de forma similar a los maps o diccionarios de datos, donde se accede al dato a partir de una clave única [23] . Los valores (datos) son aislados e independientes entre ellos, y no son interpretados por el sistema. Pueden ser variables simples como enteros o caracteres, u objetos. Por otro lado, éste sistema de almacenamiento carece de una estructura de datos clara y establecida, por lo que no requiere un formateo de los datos muy estricto [24] . Son útiles para operaciones simples basadas en las claves. Un ejemplo es el aumento de velocidad de carga de un sitio web que pueden utilizar diferentes perfiles de usuario, teniendo mapeados los archivos que hay que incluir según el id de usuario y que han sido calculados con anterioridad. Cassandra es la tecnología de almacenamiento clave-valor más reconocida por los usuarios [25] .

Almacenamiento Documental: Las bases de datos documentales guardan un gran parecido con las bases de datos Clave-Valor, diferenciándose en el dato que guardan. Si en la anterior no requería una estructura de datos concreta, en éste caso guardamos datos semiestructurados [25] . Éstos datos pasan a llamarse documentos, y pueden estar formateados en XML, JSON, Binary JSON o el que acepte la misma base de datos. Todos los documentos tienen una clave única con la que puede ser accedido e identificado explícitamente. Estos documentos no son opacos al sistema, por lo que pueden ser interpretados y lanzar queries sobre ellos [23] . Un ejemplo que aclare cómo se usa lo encontramos en un blog: se almacena el autor, la fecha, el título, el resumen y el contenido del post. CouchDB o MongoDB [25] son quizá las más conocidas. Hay que hacer mención especial a MapReduce, una tecnología de Google inicialmente diseñada para su algoritmo PageRank, que permite seleccionar un subconjunto de datos, agruparlos o reducirlos y cargarlos en otra colección, y a Hadoop que es una tecnología de Apache diseñada para almacenar y procesar grandes cantidades de datos.

Almacenamiento en Grafo: Las bases de datos en grafo rompen con la idea de tablas y se basan en la teoría de grafos, donde se establece que la información son los nodos y las relaciones entre la información son las aristas [25] , algo similar en el modelo relacional. Su mayor uso se contempla en casos de relacionar grandes cantidades de datos que pueden ser muy variables. Por ejemplo, los nodos pueden contener objetos, variables y atributos diferentes en unos y los otros. Las operaciones de join se sustituyen por recorridos a través del grafo, y se guarda una lista de adyacencias entre los nodos [23] . Encontramos un ejemplo en las redes sociales: en Facebook cada nodo se considera un usuario, que puede tener aristasde amistad con otros usuarios, o aristas de publicación con nodosde contenidos. Soluciones como Neo4J y GraphDB [25] son las más conocidas dentro de las bases de datos en grafo.

Almacenamiento Orientado a Columnas: Por último, el almacenamiento Column-Oriented es parecido al Documental. Su modelo de datos es definido como “un mapa de datos multidimensional poco denso, distribuido y persistente” [23] . Se orienta a almacenar datos con tendencia a escalar horizontalmente, por lo que permite guardar diferentes atributos y objetos bajo una misma Clave. A diferencia del Documental y el Key-Value, en éste caso podremos almacenar varios atributos y objetos, pero no serán interpretables directamente por el sistema. Permite agrupar columnas en famílias y guardar la información cronológicamente, mejorando el rendimiento. Ésta tecnología se acostuma a usar en casos con 100 o más atributos por clave [25] . Su precursor es BigTable de Google, pero han aparecido nuevas soluciones como HBase o HyperTable.

Análisis de datos[editar]

Teniendo los datos necesarios almacenados según diferentes tecnologías de almacenamiento, nos daremos cuenta que necesitaremos diferentes técnicas de análisis de datos como las siguientes.

Asociación: Permite encontrar relaciones entre diferentes variables [26] . Bajo la premisa de causalidad, se pretende encontrar una predicción en el comportamiento de otras variables. Estas relaciones pueden ser los sistemas de ventas cruzadas en los e-commerce.

Minería de datos (Data Mining): Tiene como objetivo encontrar comportamientos predictivos. Engloba el conjunto de técnicas que combina métodos estadísticos y de machine learning con almacenamiento en bases de datos [27] . Está estrechamente relacionada con los modelos utilizados para descubrir patrones en grandes cantidades de datos.

Clustering: El análisis de clústeres es un tipo de minería de datos que divide grandes grupos de individuos en grupos más pequeños de los cuales no conocíamos su parecido antes del análisis [27] . El propósito es encontrar similitudes entre estos grupos, y el descubrimiento de nuevos conociendo cuáles son las cualidades que lo definen. Es una metodología apropiada para encontrar relaciones entre resultados y hacer una evaluación preliminar de la estructura de los datos analizados. Existen diferentes técnicas y algoritmos de clustering [28] .

Análisis de texto (Text Analytics): Gran parte de los datos generados por las personas son textos, como e-mails, búsquedas web o contenidos. Ésta metodología permite extraer información de estos datos y así modelar temas y asuntos o predecir palabras [29] .

Visualización de datos[editar]

Ésto es una infografía

Tal y como el Instituto Nacional de Estadística dice en sus tutoriales, “una imagen vale más que mil palabras, o que mil datos”. Nuestra mente agradecerá mucho más la visualización amigable de unos resultados estadísticos en gráficos o mapas que no en tablas con números y conclusiones. En Big Data se llega un paso más allá: parafraseando a Edward Tufte, uno de los expertos en visualización de datos más reconocidos a nivel mundial "El mundo es complejo, dinámico, multidimensional, el papel es estático y plano. ¿Cómo vamos a representar la rica experiencia visual del mundo en la mera planicie?”. Mondrian [30] es una plataforma que permite visualizar la información a través de los análisis llevados a cabo sobre los datos que disponemos. Con ésta plataforma se intenta llegar a un público más concreto, y una utilidad más acotada como un Cuadro de Mando Integral de una organización. Por otro lado, las infografías se han vuelto un fenómeno viral, donde se recogen los resultados de los diferentes análisis sobre nuestros datos, y son un material atractivo, entretenido y simplificado para audiencias masivas [31] .

Utilidad[editar]

Éste conjunto de tecnologías se puede usar en una gran variedad de ámbitos, como los siguientes.

Empresarial[editar]

Redes Sociales: Cada vez más tendemos a subir a las redes sociales toda nuestra actividad y la de nuestros conocidos. Las empresas utilizan esta información para cruzar los datos de los candidatos a un trabajo. Oracle ha desarrollado una herramienta llamada Taleo Social Sourcing[32] , la cual está integrada con las APIs de Facebook, Twitter y LinkedIn. Gracias a su uso, los departamentos de recursos humanos pueden ver, entrando la identidad del candidato, su perfil social y profesional en cuestión de segundos. Por otro lado, les permite crear una lista de posibles candidatos según el perfil profesional necesario, y así pasar a ofrecer el puesto de trabajo a un público mucho más objetivo. Por otro lado, Gate Gourmet –una compañía de catering de aerolíneas,- experimentaba una tasa de abandono del 50% de sus trabajadores asignados al aeropuerto de Chicago, y sospecharon que el problema existía en el tiempo dedicado al viaje. Para demostrarlo, hicieron análisis juntando varios data sets de sus sistemas internos y de otros externos como datos demográficos, datos de tráfico y datos de uso de redes sociales. Los resultados que obtuvieron fueron patrones que relacionaban muy consistentemente la alta tasa de abandono con la distancia del lugar de trabajo a casa y la accesibilidad al transporte público[33] .
Consumo: Amazon es líder en ventas cruzadas. El éxito se basa en la minería de datos masiva basando los patrones de compra de un usuario cruzados con los datos de compra de otro, creando así anuncios personalizados y boletines electrónicos que incluyen justo aquello que el usuario quiere en ese instante[34] . Offline también nos encontramos con casos de aplicación Big Data. Nuestros teléfonos móviles envían peticiones de escucha WiFi a todos los puntos de acceso con los que nos cruzamos. Algunas compañías han decidido hacer un trazo de éstas peticiones con su localización y dirección MAC para saber qué dispositivo hace cuál ruta dentro de un recinto. No hay que asustarse ya que con la dirección MAC no pueden invadir nuestra intimidad[35] . Las grandes superficies aprovechan éstos datos para sacar información como contabilizar cuánto tiempo pasan los clientes en su interior, qué rutas siguen, dónde permanecen más tiempo (ya sea escogiendo un producto o el tiempo de espera en caja) o cuál es la frecuencia de visita.
Big Data e intimidad: La cantidad de datos creados anualmente es de 2,8 Zettabytes en 2012, de los cuales el 75% son generados por los individuos según su uso de la red ya sea bajarse un archivo, conectar el GPS o enviar un correo electrónico. Se calcula que un oficinista medio genera 1,8 Terabytes al año por lo que son unos 5 GB al día de información[36] . Aquí entran en juego las empresas llamadas corredores de datos. Acxiom es una de ellas, y posee unas 1.500 trazas de datos de más de 500 millones de usuarios de internet. Todos estos datos son transformados y cruzados para incluir a el usuario analizado en uno de los 70 segmentos de usuarios, llamado PersonicX [37] . Descrito como un “resumen de indicadores de estilo de vida, intereses y actividades”, esta correduría de datos basa su clustering en los acontecimientos vitales y es capaz de predecir más de 3.000 reacciones ante estímulos de estos clientes. En un primer momento captaba la información de los hechos reales y no virtuales de los usuarios[38] . En febrero de 2013, Facebook acordó la cesión de la información personal de sus usuarios con Acxiom y otros corredores de datos haciendo cruzar las actividades de la vida off-line con las actividades on-line [30]. A nivel usuario, nos encontramos con Google Location History: un servicio de Google que registra las ubicaciones en las cuales ha estado un usuario que lleva el móvil encima, y con el servicio de localización activado (que por defecto lo está en los terminales con Android). Al acceder a él muestra un mapa con las rutas que ha seguido el usuario, con la hora de llegada y salida de cada ubicación[39] . Gracias a esta utilidad se crean algoritmos de recomendaciones de amigos en redes sociales y ubicaciones a visitar basados en el historial de ubicaciones del usuario[40] . Por último, Google pagó 3.200 millones de dólares por Nest, una empresa de detectores de humo[41] . Ahora Google ha abierto Nest Labs, donde se pretende desarrollar sensores para convertir la casa en una Smart home. Incluir éstos sensores permitirá saber por ejemplo cuándo hay alguien o no en casa gracias a su interacción con los |wearables, a qué temperatura está el ambiente o detectar si hay algún peligro dentro como fuego[42] .

Deportes[editar]

Profesional: En un ámbito donde se mueve tanto dinero, suelen utilizar las nuevas tecnologías antes que los usuarios de base. Nos encontramos por ejemplo que el análisis de los partidos constituye una parte fundamental en el entrenamiento de los profesionales, y la toma de decisiones de los entrenadores. Amisco[43] es un sistema aplicado por los más importantes equipos de las ligas Española, Francesa, Alemana e Inglesa des del 2001. Consta de 8 cámaras y diversos ordenadores instalados en los estadios, que registran los movimientos de los jugadores a razón de 25 registros por segundo, y luego envían los datos a una central donde hacen un análisis masivo de los datos. La información que se devuelve como resultado incluye una reproducción del partido en dos dimensiones, los datos técnicos y estadísticas, y un resumen de los datos físicos de cada jugador, permitiendo seleccionar varias dimensiones y visualizaciones diferentes de datos [43] .
Aficionado: Aplicaciones como Runtastic, Garmin o Nike+ proveen de resultados Big Data al usuario. Éste último –Nike+- va un paso más allá a nivel de organización, ya que fabrican un producto básico para sus usuarios: las zapatillas. Los 7 millones de usuarios generan una gran cantidad de datos para medir el rendimiento y su mejora, por lo que la empresa genera unos clústeres con los patrones de comportamiento de sus usuarios. Uno de sus objetivos pues, es controlar el tiempo de vida de sus zapatillas encontrando fórmulas para mejorar la calidad. Por último, hace picar a sus usuarios con el uso de la gamificación: establece que comunidades de usuarios lleguen a metas y consigan objetivos conjuntamente con el uso de la aplicación, motivando e inspirando a los corredores para usar su aplicación y a más largo plazo, sus productos deportivos.

Investigación[editar]

Salud y medicina: Hacia mediados 2009, el mundo experimentó una pandemia de gripe A, llamada gripe porcina o H1N1. El website Google Flu Trends fue capaz de predecirla gracias a los resultados de las búsquedas. Flu Trends usa los datos de las búsquedas de los usuarios que contienen Influenza-Like Illness Symptoms (Síntomas parecidos a la enfermedad de la gripe) y los agrega según ubicación y fecha, y es capaz de predecir la actividad de la gripe hasta con dos semanas de antelación más que los sistemas tradicionales. Más concretamente en Nueva Zelanda[44] cruzaron los datos de Google Flu Trends con datos existentes de los sistemas de salud nacionales, y comprobaron que estaban alineados. Los gráficos mostraron una correlación con las búsquedas de ILI Symptoms y la extensión de la pandemia en el país. Los países con sistemas de predicción poco desarrollados pueden beneficiarse de una predicción fiable y pública para abastecer a su población de las medidas de seguridad oportunas.
Defensa y seguridad: Para incrementar la seguridad frente a los ataques de las propias organizaciones, ya sean empresas en el entorno económico o los propios ministerios de defensa en el entorno de ciberataques, se contempla la utilidad de la tecnología Big Data en escenarios como la vigilancia y seguridad de fronteras, lucha contra el terrorismo y crimen organizado, contra el fraude, planes de seguridad ciudadana o planeamiento táctico de misiones e inteligencia militar[45] .
Caso específico: Proyecto Aloja:

Una de las máquinas del Marenostrum, Supercomputador del BSC

El Proyecto Aloja[46] ha sido iniciado por una apuesta en común del Barcelona Supercomputing Center (BSC) y Microsoft Research. El objetivo de éste proyecto de Big Data quiere conseguir una optimización automática en despliegues de Hadoop en diferentes infraestructuras. [40]
Caso específico: Sostenibilidad: Conservation International es una organización con el propósito de concienciar a la sociedad de cuidar el entorno de una manera responsable y sostenible. Con la ayuda de la plataforma Vertica Analytics de HP, han situado 1.000 cámaras a lo largo de 16 bosques en 4 continentes. Estas cámaras incorporan unos sensores, y a modo de cámara oculta graban el comportamiento de la fauna. Con estas imágenes y los datos de los sensores (precipitaciones, temperatura, humedad, solar…) consiguen información sobre cómo el cambio climático o el desgaste de la tierra afecta en su comportamiento y desarrollo[47] .

Referencias[editar]

  1. http://www.eldiario.es/turing/Big-data_0_161334397.html
  2. Kusnetzky, Dan. What is "Big Data?". ZDNet. http://blogs.zdnet.com/virtualization/?p=1708
  3. Vance, Ashley. Start-Up Goes After Big Data With Hadoop Helper. New York Times Blog. 22 April 2010. http://bits.blogs.nytimes.com/2010/04/22/start-up-goes-after-big-data-with-hadoop-helper/?dbk
  4. Cukier, K. (25 February 2010). Data, data everywhere. The Economist. http://www.economist.com/specialreports/displaystory.cfm?story_id=15557443
  5. Horowitz, Mark. Visualizing Big Data: Bar Charts for Words. Wired Magazine. Vol 16 (7). 23 June 2008. http://www.wired.com/science/discoveries/magazine/16-07/pb_visualizing##ixzz0llT2DN5j. Volu 16(7)
  6. Community cleverness required. Nature, 455(7209), 1. 2008. http://www.nature.com/nature/journal/v455/n7209/full/455001a.html
  7. Sandia sees data management challenges spiral. HPC Projects. 4 August 2009. http://www.hpcprojects.com/news/news_story.php?news_id=922
  8. Reichman,O.J., Jones, M.B., and Schildhauer, M.P. 2011. Challenges and Opportunities of Open Data in Ecology. Science 331(6018): 703-705.DOI:10.1126/science.1197962
  9. Hellerstein, Joe. Parallel Programming in the Age of Big Data. Gigaom Blog. 9 November 2008. http://gigaom.com/2008/11/09/mapreduce-leads-the-way-for-parallel-programming/
  10. Segaran, Toby and Hammerbacher, Jeff. Beautiful Data. 1st Edition. O'Reilly Media. Pg 257.
  11. "The World’s Technological Capacity to Store, Communicate, and Compute Information", Martin Hilbert and Priscila López (2011), Science (journal), 332(6025), 60-65; free access to the article through here: martinhilbert.net/WorldInfoCapacity.html
  12. http://www-01.ibm.com/software/data/bigdata/
  13. Douglas, Laney. «3D Data Management: Controlling Data Volume, Velocity and Variety». Gartner. Consultado el 6 de febrero de 2001. 
  14. Beyer, Mark. «Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data». Gartner. Consultado el 13 de julio de 2011. 
  15. Purcell, Bernice (2013). «The emergence of Big Data technology and Analytics». Holy Family University. 
  16. Lopez García, David (2012-2013). Analysis of the possibilities of use of Big Data in organizations. Consultado el 18 de octubre de 2014. 
  17. Paniagua, Soraya (Junio - Setiembre 2013). «A world of sensors, from Data to Big Data». Revista Telos. 
  18. “Conceptos básicos de Big Data”, TRC Informática SL, 2013.
  19. Paniagua, Soraya (Junio - Setiembre 2013). «A world of sensors, from Data to Big Data». Revista Telos. 
  20. Kohlwey, Edmund; Sussman, Abel; Trost, Jason; Maurer, Amber (2011). «Leveraging the Cloud for Big Data Biometrics». IEEE World Congress on Services. 
  21. Tomsen, Christian; Pedersen, Torben Bach (2009). «pygrametl: A Powerful Programming Framework for Extract–Transform–Load Programmers». 1DB Technical Report; No. 25, Department of Computer Science, Aalborg University. 
  22. Martín, Adriana; Chávez, Susana; Rodríguez, Nelson R.; Valenzuela, Adriana; Murazzo, Maria A. (2013). «Bases de datos NoSql en cloud computing». WICC. Consultado el 18 de octubre de 2014. 
  23. a b c d Hecht, Robin; Jablonski, Stefan (2011). «NoSQL Evaluation, a use case oriented survey». International Conference on Cloud and Service Computing. 
  24. Seeger, Marc (21 setiembre 2009). Key-Value stores: a practical overview. Consultado el 1 de enero de 2015. 
  25. a b c d e f Bianchi Widder, Maria Belén (Setiembre 2012). «Els beneficis de l’ús de tecnologies NoSQL». UPCommons. Consultado el 1 de enero de 2015. 
  26. Vila, M Amparo; Sanchez, Daniel; Escobar, Luis (2004). «Relaciones Causales en Reglas de Asociación». XII Congreso Español sobre tecnologías y lógica Fuzzy. 
  27. a b Manyika, James; Chui, Michael; Brown, Brad; Bughin, Jacques; Dobbs, Richard; Roxburgh, Charles; Byers, Angela Hung (Mayo 2011). «Big data: The next frontier for innovation, competition, and productivity». McKinsey. Consultado el 1 de enero de 2015. 
  28. Jain, A.K.; Murty, M.N.; Flynn, P.J. (Setiembre 1999). «Data Clustering: A Review». ACM Computing Surveys 31 (3). Consultado el 1 de enero de 2015. 
  29. Maltby, Dylan (9 octubre 2011). «Big Data Analytics». ASIST 2011 (New Orleans). 
  30. Theus, Martin (2003). «Interactive Data Visualization using Mondrian». Journal of Statistical Software. 
  31. Albarracín, Pablo (12 agosto 2013). «Visualización avanzada de datos: La belleza del Big Data». Revista América Economía Tecno. Consultado el 18 octubre 2014. 
  32. Social Recruiting Automation with Oracle Taleo Social Sourcing Cloud Service. 2013. 
  33. Bernstein, David (2014). «How Big Data is taking recruiters from “I Think” to “I Know."». 
  34. McAfee, Andrew; Brynjolfsson, Eric (October 2012). «Big Data: The Management Revolution». Harvard Business Review. 
  35. López Revilla, Juan Carlos (14 noviembre 2013). «Las compañías de «WiFi tracking» en tiendas quieren que sepas lo que está pasando». Mobile World Capital. 
  36. Tucker, Patric (16 mayo 2013). «¿Han hecho los grandes volúmenes de datos que el anonimato sea imposible?». MIT Technology Review. 
  37. PersonicX Cluster Perspectives. 2010. 
  38. McManus, John (2013). «Street Wiser». American Demographics. 
  39. Sevilla, Fernando (27 enero 2013). El Historial de Ubicaciones de Android, ¿qué sabe Google de tu posición?. 
  40. Zheng, Yu; Zhang, Lizhu; Zhengxin, Ma; Xie, Xing; Ma, Wei-Ying (5 febrero 2011). «Recommending Friends and locations based on individual location history.». ACM Transactions on the Web 5 (1). 
  41. «Por qué quiere Google a Nest, una empresa de detectores de humo.». ABC. 15 enero 2014. 
  42. Olson, Parmy (24 junio 2014). «Google's Nest Moves To Become Master Of The Smart Home, By Talking To Other Devices». Forbes. 
  43. a b Reilly, Thomas; Korkusuz, Feza (2009). Science and Football VI. The proceedings of the Sixth World Congress on Science and Football. p. 209. ISBN 0-203-89368-9. 
  44. Wilson, N; Mason, M; Tobias, M; Peacey, M; Huang, Q S; Baker, M (Eurosurveillance Edition 2009). «Interpreting “Google Flu Trends” data for pandemic H1N1 influenza: The New Zealand Experience». Eurosurveillance Edition 2009. 14 / Issue 44 (4). 
  45. Carrillo Ruiz, Jose Antonio; Marco de Lucas, Jesus E.; Cases Vega, Fernando; Dueñas Lopez, Juan Carlos; Cristino Fernandez, Jose; Gonzalez Muñoz de Morales, Guillermo; Pereda Laredo, Luis Fernando (Marzo 2013). «Big Data en los entornos de Defensa y Seguridad». Instituto Español de Estudios Estratégicos. 
  46. «El BSC y Microsoft Research Center optimizarán Big Data con el proyecto Aloja». Computing. 31 julio 2014. Consultado el 1 de enero de 2015. 
  47. How Big Data Is Helping to Save the Planet.. 15 setiembre 2014. 

Enlaces externos[editar]