Ciencia de datos

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

La Ciencia de datos es un campo interdisciplinario que involucra métodos científicos, procesos y sistemas para extraer conocimiento o un mejor entendimiento de datos en sus diferentes formas, ya sea estructurados o no estructurados,[1] lo cual es una continuación de algunos campos de análisis de datos como la estadística, la minería de datos, el aprendizaje automático y la analítica predictiva.[1]

El ganador del premio Turing, Jim Gray, imaginó la ciencia de datos como un "cuarto paradigma" de la ciencia (empírico, teórico, computacional y ahora basado en datos) y afirmó que "todo lo relacionado con la ciencia está cambiando debido al impacto de la tecnología de la información y el diluvio de datos"[2] .

En este nuevo paradigma, los investigadores se apoyan de sistemas y procesos que son muy diferentes a los utilizados en el pasado, como son modelos, ecuaciones, algoritmos, así como evaluación e interpretación de resultados. [1]

Historia[editar]

La ciencia de datos ha resultado para muchos una disciplina de reciente creación, pero en la realidad este concepto lo utilizó por primera vez el científico danés Peter Naur en la década de los sesenta como sustituto de las ciencias computacionales. En 1974 publicó el libro Concise Survey of Computer Methods [3] donde utiliza ampliamente el concepto ciencia de datos, lo que permitió que se comenzara a utilizar más libremente entre el mundo académico.

En 1996 el término de Ciencia de Datos fue utilizado por primera vez en una conferencia, llamada "Ciencia de datos, clasificación y métodos relacionados" en una reunión de miembros de la IFCS (International Federation of Classification Societies)[4] . En 1997, C.F. Jeff Wu dio una lectura llamada "¿Estadística = Ciencia de Datos?", donde describió al trabajo estadístico como una trilogía conformada por recolección de datos, análisis y modelado de datos, y la toma de decisiones, haciendo la petición de que la estadística fuese renombrada como ciencia de datos y los estadísticos como científicos de datos[5] .

En 2001, William S. Cleveland introdujo a la ciencia de datos como una disciplina independiente, extendiendo el campo de la estadística para incluir los "avances en computación con datos" en su artículo "Ciencia de datos: un plan de acción para expandir las áreas técnicas del campo de la estadística". Cleveland estableció seis áreas técnicas que en su opinión conformarían al campo de la ciencia de datos: investigaciones multidisciplinarias, modelos y métodos para datos, computación con datos, pedagogía, evaluación de herramientas, y teoría[6] .

En abril del 2002, el International Council for Science: Committee on Data for Science and Technology (CODATA) empezó la publicación del Data Science Journal[7] , enfocada en problemas como la descripción de sistemas de datos, su publicación en Internet, sus aplicaciones y problemas legales. Poco después, en enero del 2003, la Universidad de Columbia empezó a publicar The Journal of Data Science[8] , la cual ofreció una plataforma para que todos los profesionales de datos presentaran sus perspectivas e intercambiaran ideas.

En 2005, The National Science Board publicó "Colecciones de datos digitales de larga duración: Habilitando la investigación y la educación en el siglo XXI" definiendo a los científicos de datos como "científicos de computación e información, programadores de bases de datos y software, expertos disciplinarios, [...] que son cruciales para la gestión exitosa de una colección digital de datos", cuya actividad primaria es "realizar investigación creativa y análisis"[9] .

Fue en el 2008 que Jeff Hammerbacher y DJ Patil lo reutilizaron para definir sus propios trabajos realizados en Facebook y Linkedin, respectivamente, [10]

En 2013 fue lanzado el IEEE Task Force on Data Science and Advanced Analytics[11] , mientras que la primera conferencia internacional de IEEE International Conference on Data Science and Advanced Analytics fue lanzada en el 2014[12] . En 2015, el International Journal on Data Science and Analytics fue lanzado por Springer para publicar trabajos originales en ciencia de datos y análitica de big data[13] .

Ciencia de datos versus Business intelligence & Big data[editar]

Ciencia de datos:

  • Trabaja en datos incompletos
  • Los datos suelen estar desordenados
  • Analiza los datos para ver qué información obtiene
  • Grandes conjuntos de datos que es un desafío administrar
  • Los hallazgos impulsan decisiones sobre operaciones y productos

Business intelligence (BI):

  • Conjuntos de datos completos
  • Archivos de datos limpios
  • Informa lo que dicen los datos
  • Conjunto de datos manejable
  • Sus hallazgos miden el rendimiento pasado

Otro término que se relaciona mucho con la ciencia de datos y BI es el de Big Data, de acuerdo con la guía de Amazon Web Service considera al Big Data como a una cantidad considerable de datos con dificultades para almacenarse en bases de datos tradicionales, para procesarse en servidores estándar y para analizarse con aplicaciones habituales. [cita requerida]

Científico de datos[editar]

Las personas que se dedican a la ciencia de datos se les conoce como científico de datos, de acuerdo con el proyecto Master in Data Science define al científico de datos como una mezcla de estadísticos, computólogos y pensadores creativos, con las siguientes habilidades:

  • Recopilar, procesar y extraer valor de las diversas y extensas bases de datos.
  • Imaginación para comprender, visualizar y comunicar sus conclusiones a los no científicos de datos.
  • Capacidad para crear soluciones basadas en datos que aumentan los beneficios, reducen los costos.
  • Los científicos de datos trabajan en todas las industrias y hacen frente a los grandes proyectos de datos en todos los niveles.

El doctor en estadística Nathan Yau, precisó lo siguiente: el científico de datos es un estadístico que debería aprender interfaces de programación de aplicaciones (API), bases de datos y extracción de datos; es un diseñador que deberá aprender a programar; y es un computólogo que deberá saber analizar y encontrar datos con significado. [14]

En la tesis doctoral de Benjamin Fry explicó que el proceso para comprender mejor a los datos comenzaba con una serie de números y el objetivo de responder preguntas sobre los datos, en cada fase del proceso que él propone (adquirir, analizar, filtrar, extraer, representar, refinar e interactuar), se requiere de diferentes enfoques especializados que aporten a una mejor comprensión de los datos. Entre los enfoques que menciona Fry están: ingenieros en sistemas, matemáticos, estadísticos, diseñadores gráficos, especialistas en visualización de la información y especialistas en interacciones hombre-máquina, mejor conocidos por sus siglas en inglés “HCI” (Human-Computer Interaction). Además, Fry afirmó que contar con diferentes enfoques especializados lejos de resolver el problema de entendimiento de datos, se convierte en parte del problema, ya que cada especialización conduce de manera aislada el problema y el camino hacia la solución se puede perder algo en cada transición del proceso. [15]

en:Drew Conway en su página web explica con la ayuda de un diagrama de Venn, las principales habilidades que le dan vida y forma a la ciencia de datos, así como sus relaciones de conjuntos.

La pertinencia de ser un científico de datos[editar]

La ciencia de datos ha cobrado recientemente mucha importancia en nuestro acontecer como disciplina o profesión emergente (científico de datos) y se ha vuelto en foco de atención de cada vez más organizaciones a nivel mundial, tal como lo señaló el economista en jefe de Google, Hal Varian “El trabajo más sexy en los próximos 10 años será ser estadístico”, palabras sobre las que reflexionó Thomas H. Davenport para publicar en el 2012 su artículo: Data Scientist: The Sexiest Job of the 21st Century [16] donde describe el perfil que debe tener el científico de datos es el híbrido de un hacker de datos, un analista, un comunicador y un consejero confiable, combinación extremadamente poderosa y poco común. Davenport, también señala que el científico de datos no se siente cómodo como se dice coloquialmente “con la correa corta”, es decir, debe tener la libertad de experimentar y explorar posibilidades. Además, Davenport en el mismo artículo presenta un decálogo de cómo encontrar el científico de datos que la organización necesita (ver página 74 del artículo).

El informe que publicó “McKinsey” [17] en el 2011 estimó que para el mundo de grandes datos en el que vivimos, espera que la demanda por talento experto en análisis de datos podría alcanzar de los 440,000 a 490,000 puestos de trabajo para el 2018.[cita requerida]

Referencias[editar]

  1. a b c Liu, Alex (17 de septiembre de 2015). «Data Science and Data Scientist» (en inglés). Consultado el 24 de septiembre de 2015. 
  2. Tansley, Stewart; Tolle, Kristin Michele (1 de enero de 2009). The Fourth Paradigm: Data-intensive Scientific Discovery (en inglés). Microsoft Research. ISBN 9780982544204. Consultado el 3 de febrero de 2017. 
  3. Peter Naur (1974). Encyclopedia of Computer Science. Petrocelli Books. 91-44-07881-1. 
  4. Press, Gil. «A Very Short History Of Data Science». Forbes. Consultado el 3 de febrero de 2017. 
  5. Wu, C.F. Jeff (1997). "Statistics = Data Science?". Consultado el 3 de febrero de 2017. 
  6. Cleveland, W. S. (2001). Data science: an action plan for expanding the technical areas of the field of statistics. (en inglés). International Statistical Review / Revue Internationale de Statistique. p. 21–26. 
  7. «Data Science Journal». Available Volumes. Retrieved from Japan Science and Technology Information Aggregator, Electronic: http://www.jstage.jst.go.jp/browse/dsj/_vols. 2012, abril. 
  8. «The Journal of Data Science». Contents of Volume 1, Issue 1. 2003, enero. 
  9. National Science Board (2005). «US NSF - NSB-05-40, Long-Lived Digital Data Collections Enabling Research and Education in the 21st Century». www.nsf.gov (en inglés). National Science Foundation. Consultado el 3 de febrero de 2017. 
  10. Perlroth, Nicole (2 de noviembre de 2011). «The World´s 7 Most Powerful Data Scientists» (en inglés). Consultado el 24 de septiembre de 2015. 
  11. «"IEEE Task Force on Data Science and Advanced Analytics".». Consultado el 3 de febrero de 2017. 
  12. «"2014 IEEE International Conference on Data Science and Advanced Analytics".». Consultado el 3 de febrero de 2017. 
  13. «"Journal on Data Science and Analytics".». Consultado el 3 de febrero de 2017. 
  14. Harris, Harlan (septiembre de 2011). «What is “Data Science” Anyway? En Revolution Analytics» (en inglés). Consultado el 24 de septiembre de 2015. 
  15. Fry, Benjamin (abril de 2014). «Thesis proposal: Computational Information Design» (en inglés). Consultado el 24 de septiembre de 2015. 
  16. Peter Drucker (2012). Data Scientist: The Sexiest Job of the 21st Century. Harvard Business Review. 
  17. Manyika, James; Michael Chui, Brad Brown, Jacques Bughin, Richard Dobbs, Charles Roxburgh, Angela Hung Byers (mayo de 2011). «Big data: The next frontier for innovation, competition, and productivity» (en inglés). Consultado el 24 de septiembre de 2015. 

Enlaces externos[editar]

  • Programa de becas [1].
  • Comunidad de científicos de datos [2].
  • Comunidad de científicos de datos [3].