Databricks

De Wikipedia, la enciclopedia libre
Databricks
Tipo negocio
Industria software
Forma legal empresa privada
Fundación 2013
Fundador Ali Ghodsi
Ion Stoica
Reynold Xin
Matei Zaharia
Sede central San Francisco (Estados Unidos)
Presidente Ion Stoica
Director ejecutivo Ali Ghodsi
Ingresos 1 000 000 000 dólares estadounidenses
Empleados 4000
Miembro de BSA | The Software Alliance, Inc.
Sitio web databricks.com

Databricks es una empresa estadounidense de software empresarial fundada por los creadores de Apache Spark.[1]​ Databricks desarrolla una plataforma basada en web para trabajar con Spark, que proporciona gestión automatizada de clústeres y cuadernos de estilo IPython. La empresa desarrolla Delta Lake, un proyecto de código abierto para aportar fiabilidad a los lagos de datos para el aprendizaje automático y otros casos de uso de la ciencia de datos.[2]

Historia[editar]

Databricks surgió del proyecto AMPLab de la Universidad de California en Berkeley, que participó en la creación de Apache Spark, un marco de computación distribuida de código abierto construido sobre Scala. La empresa fue fundada por Ali Ghodsi, Andy Konwinski, Arsalan Tavakoli-Shiraji, Ion Stoica, Matei Zaharia,[3]​ Patrick Wendell y Reynold Xin.

En noviembre de 2017, la empresa fue anunciada como un servicio de primera parte en Microsoft Azure a través de la integración Azure Databricks.[4]

En junio de 2020, Databricks adquirió Redash, una herramienta de código abierto diseñada para ayudar a los científicos y analistas de datos a visualizar y construir cuadros de mando interactivos de sus datos.[5]

En febrero de 2021, junto con Google Cloud, Databricks proporcionó integración con el motor Kubernetes de Google y la plataforma BigQuery de Google.[6]Fortune clasificó a Databricks como uno de los mejores grandes "Lugares de trabajo para millennials" en 2021.[7]​ En ese momento, la compañía dijo que más de 5000 organizaciones utilizaban sus productos.[8]

En agosto de 2021, Databricks finalizó su octava ronda de financiación recaudando US$1 600 000 000 ($1 600 000 000 en 2024) y valorando la empresa en US$38 000 000 000 ($38 000 000 000 en 2024).[9]

En octubre de 2021, Databricks realizó su segunda adquisición de la empresa alemana no-code 8080 Labs, la cual fabrica bamboolib, una herramienta de exploración de datos que no requiere codificación para su uso.[10]

En respuesta a la popularidad de ChatGPT de OpenAI, en marzo de 2023, la empresa presentó un modelo de lenguaje de código abierto, llamado Dolly en honor a la oveja Dolly, que los desarrolladores podían utilizar para crear sus propios chatbots. Su modelo utiliza menos parámetros para producir resultados similares a los de ChatGPT, pero Databricks no había publicado pruebas comparativas formales para demostrar si su bot igualaba realmente el rendimiento de ChatGPT.[11][12][13]

Databricks adquirió la empresa emergente de seguridad de datos Okera en mayo de 2023 para ampliar sus capacidades de gobernanza de datos[14]​. Al mes siguiente, adquirió la startup de inteligencia artificial generativa de código abierto MosaicML por US$1 400 000 000 ($1 400 000 000 en 2024).[15][16]

Financiación[editar]

En septiembre de 2013, Databricks anunció que recaudó US$13 900 000 ($16 169 671 en 2024) de Andreessen Horowitz y dijo que su objetivo era ofrecer una alternativa al sistema MapReduce de Google.[17][18]Microsoft fue un inversor destacado de Databricks en 2019, participando en la Serie E de la empresa con una cantidad no especificada.[19][20]​ La empresa ha recaudado US$1 900 000 000 ($2 013 757 647 en 2024) en financiación, incluida una Serie G de US$1 000 000 000 ($1 059 872 446 en 2024) liderada por Franklin Templeton con una valoración posterior al dinero de US$28 000 000 000 ($28 000 000 000 en 2024) en febrero de 2021. Otros inversores son Amazon Web Services, CapitalG, una empresa de capital de crecimiento dependiente de Alphabet Inc. y Salesforce Ventures.[8]

Rondas de financiación
Serie Fecha Importe (millones de $) Inversores principales
A 2013 13.9[17] Andreessen Horowitz
B 2014 33[21] New Enterprise Associates
C 2016 60[22]
D 2017 140[23] Andreessen Horowitz
E Feb. 2019 250[24]
F Oct. 2019 400[25]
G Ene. 2021 1,000[26] Franklin Templeton Investments
H Ago. 2021 1,600[27] Morgan Stanley

Productos[editar]

Databricks desarrolla y vende una plataforma de datos en la nube utilizando el término de mercadotecnia "Lakehouse", un Portmanteau basado en los términos "data warehouse" y "data lake".[28]​ Lakehouse de Databricks se basa en el framework de código abierto Apache Spark, que permite realizar consultas analíticas contra datos semiestructurados sin un esquema de base de datos tradicional.[29]​ En octubre de 2022, Lakehouse recibió la autorización FedRAMP para su uso con el gobierno federal y los contratistas estadounidenses.[30]

Delta Engine de Databricks se lanzó en junio de 2020 como un nuevo motor de consulta que se superpone a Delta Lake para aumentar el rendimiento de las consultas.[31]​ Es compatible con Apache Spark y MLflow, que también son proyectos de código abierto de Databricks.[32]

En noviembre de 2020, se presentó Databricks SQL, antes conocido como SQL Analytics, para ejecutar informes de inteligencia empresarial y analítica sobre lagos de datos. Los analistas pueden consultar conjuntos de datos directamente con SQL estándar o utilizar conectores de productos para integrarlos directamente con herramientas de inteligencia empresarial como Tableau, Qlik, SigmaComputing, Looker y ThoughtSpot.[33]

Databricks ofrece una plataforma para otras cargas de trabajo, incluido el aprendizaje automático, el almacenamiento y procesamiento de datos, la analítica de streaming y la inteligencia empresarial.[34]

La empresa también ha creado Delta Lake, MLflow y Koalas, proyectos de código abierto que abarcan la ingeniería de datos, la ciencia de datos y el aprendizaje automático.[35]​ Además de construir la plataforma Databricks, la empresa ha coorganizado cursos online masivos y abiertos sobre Spark[36]​ y una conferencia para la comunidad Spark llamada Data + AI Summit,[37]​ antes conocida como Spark Summit.

Operaciones[editar]

Databricks tiene su sede en San Francisco (California),[38]​ estando presente en Canadá, Costa Rica, Brasil, Reino Unido, Países Bajos, Alemania, Francia, Israel, Suiza, Suecia, Serbia, Singapur, Japón, China, Australia, India y Corea del Sur.[39]

Desempeño[editar]

Se ha reportado un desempeño y rendimiento muy lento en general con el aplicativo, en comparación con otras plataformas como Oracle, ODBC o Impala, ya que, por ejemplo, un usuario cuestiona si no está pensado principalmente para importar tablas grandes, sino más bien para trabajar a través de Direct Query.[40]

Otro usuario ha reportado que estaba usando un pequeño y simple dataframe de Spark al definir una función, el cual ha tardado en ejecutarse 6 minutos, por lo que se cuestiona si necesita incrementar la memoria, o bien, los nodos con un clúster de mayor capacidad.[41]

En otro caso, un usuario ha reportado que para ejecutar una consulta con dataframe pandas en bases de datos de Azure SQL, ha tardado 30 minutos al arrojar un resultado de solamente 6000 filas.[42]

Solución a los problemas de lentitud[editar]

Para resolver la ralentización en los procesos del aplicativo, se han recomendado las posibles soluciones siguientes:

Previamente se requiere configurar el clúster para enviar telemetría a un área de trabajo de Log Analytics mediante la biblioteca de supervisión de Azure, así como implementar Grafana en una máquina virtual.

Las tareas rezagadas se ejecutan lentamente debido a la alta latencia de tareas, fases o trabajos y bajo rendimiento del clúster. La suma de latencias de las tareas por host no se distribuye de manera uniforme, tomando en cuenta que el consumo de recursos se distribuye de manera uniforme entre los ejecutores.

Si las particiones tienen un tamaño distinto, una partición más grande puede producir una ejecución de tarea desequilibrada, debido al consumo de recursos del ejecutor es alto en comparación con otros ejecutables que se ejecutan en el clúster, causando que todas las tareas que se ejecutan serán lentamente, así como la fase en la canalización. Estas son barreras de la fase.

Otra causa puede ser por el recuento de particiones aleatorias que no es el óptimo, debido a que la asignación de una tarea a un ejecutor es una operación que consume muchos recursos en el clúster.[43]

Referencias[editar]

  1. Dwoskin, Elizabeth (9 de junio de 2016). «This is where the real action in artificial intelligence takes place» [Aquí es donde tiene lugar la verdadera acción de la inteligencia artificial]. The Washington Post (en inglés estadounidense) (San Francisco, California). Archivado desde el original el 10 de junio de 2016. 
  2. Johnson, Khari (24 de abril de 2019). «Databricks launches Delta Lake, an open source data lake reliability Project». VentureBeat (en inglés estadounidense). Archivado desde el original el 9 de octubre de 2022. Consultado el 14 de julio de 2023. 
  3. «Matei Zaharia». people.csail.mit.edu (en inglés). Archivado desde el original el 10 de marzo de 2014. Consultado el 14 de julio de 2023. 
  4. «Microsoft convierte Databricks en un servicio propio en Azure». TechCrunch (en inglés). 15 de noviembre de 2017. 
  5. Lardinois, Frederic (24 de junio de 2020). «Databricks acquires Redash, a visualizations service for data scientists» [Databricks adquiere Redash, un servicio de visualización para científicos de datos]. TechCrunch (en inglés) (Yahoo!). Archivado desde el original el 25 de marzo de 2022. 
  6. Lardinois, Frederic (17 de febrero de 2021). «Databricks lleva su casa del lago a Google Cloud». TechCrunch (en inglés) (Verizon Communications). Archivado desde el original el 27 de julio de 2021. 
  7. «100 Best Workplaces for Millennials». Fortune (en inglés). 24 de diciembre de 2020. Archivado desde el original el 26 de marzo de 2023. Consultado el 14 de julio de 2023. 
  8. a b Konrad, Alex (1 de febrero de 2021). «Databricks Raises $1 Billion At $28 Billion Valuation, With The Cloud’s Elite All Buying In». Forbes (en inglés). Archivado desde el original el 1 de febrero de 2021. Consultado el 14 de julio de 2023. 
  9. Mellor, Chris (1 de septiembre de 2021). «Databricks raises data lake of cash at monstrous $38bn valuation». Blocks and Files (en inglés estadounidense). Archivado desde el original el 1 de septiembre de 2021. Consultado el 14 de julio de 2023. 
  10. Rosenbaum, Eric (6 de octubre de 2021). «$38 billion software start-up Databricks makes acquisition to leave code behind». CNBC (en inglés). NBCUniversal. Archivado desde el original el 6 de octubre de 2021. Consultado el 14 de julio de 2023. 
  11. Hu, Krystal; Nellis, Stephen (24 de marzo de 2023). «Databricks pushes open-source chatbot as cheaper ChatGPT alternative» (en inglés). Reuters. Archivado desde el original el 24 de marzo de 2023. Consultado el 14 de julio de 2023. 
  12. Loten, Angus (24 de marzo de 2023). «Databricks Launches ‘Dolly,’ Another ChatGPT Rival». The Wall Street Journal (en inglés estadounidense). Dow Jones & Company. Archivado desde el original el 1 de abril de 2023. Consultado el 14 de julio de 2023. 
  13. Goldman, Sharon (24 de marzo de 2023). «Databricks debuts ChatGPT-like Dolly, a clone any enterprise can own». VentureBeat (en inglés estadounidense). Archivado desde el original el 24 de marzo de 2023. Consultado el 14 de julio de 2023. 
  14. Palazzolo, Stephanie (3 de mayo de 2023). «Exclusive: $38 billion data and AI darling Databricks acquires security startup Okera». Business Insider (en inglés estadounidense). Archivado desde el original el 3 de mayo de 2023. Consultado el 14 de julio de 2023. 
  15. Datta, Tiyashi (26 de junio de 2023). «Databricks strikes $1.3 billion deal for generative AI startup MosaicML» (en inglés). Reuters. Archivado desde el original el 26 de junio de 2023. Consultado el 14 de julio de 2023. 
  16. Council, Stephen (26 de junio de 2023). «SF tech firm Databricks to buy 2-year-old startup for $21 million per employee». SFGATE (en inglés estadounidense). Hearst Communications. Archivado desde el original el 26 de junio de 2023. Consultado el 14 de julio de 2023. 
  17. a b Harris, Derrick (25 de septiembre de 2013). «Databricks raises $14M from Andreessen Horowitz, wants to take on MapReduce with Spark». Gigaom (en inglés). Archivado desde el original el 15 de enero de 2022. Consultado el 15 de julio de 2023. 
  18. Lorica, Ben (25 de septiembre de 2013). «Databricks aims to build next-generation analytic tools for Big Data». O'Reilly Radar (en inglés estadounidense). O'Reilly Media. Archivado desde el original el 4 de julio de 2014. Consultado el 14 de julio de 2023. 
  19. «Databricks raises $250M at a $2.75B valuation for its analytics platform». TechCrunch (en inglés). 5 de febrero de 2019. Archivado desde el original el 19 de octubre de 2022. 
  20. Novet, Jordan (5 de febrero de 2019). «Microsoft used to scare start-ups but is now an 'outstandingly good partner,' says Silicon Valley investor Ben Horowitz». CNBC (en inglés). NBCUniversal. Archivado desde el original el 5 de febrero de 2019. Consultado el 14 de julio de 2023. 
  21. Miller, Ron (30 de junio de 2014). «Databricks Snags $33M In Series B And Debuts Cloud Platform For Processing Big Data». TechCrunch (en inglés estadounidense). AOL. Archivado desde el original el 1 de julio de 2014. Consultado el 14 de julio de 2023. 
  22. Shieber, Jonathan (15 de diciembre de 2016). «Databricks raises $60 million to be big data's next great leap forward». TechCrunch (en inglés estadounidense). AOL. Archivado desde el original el 15 de diciembre de 2016. Consultado el 14 de julio de 2023. 
  23. «Databricks Secures $140 Million to Accelerate Analytics and Artificial Intelligence in the Enterprise». Databricks (en inglés estadounidense). San Francisco, California. 22 de agosto de 2017. Archivado desde el original el 29 de agosto de 2017. Consultado el 14 de julio de 2023. 
  24. «Databricks’ $250 Million Funding Supports Explosive Growth and Global Demand for Unified Analytics; Brings Valuation to $2.75 Billion». Databricks (en inglés estadounidense). San Francisco, California. 5 de febrero de 2019. Archivado desde el original el 6 de febrero de 2019. Consultado el 14 de julio de 2023. 
  25. Miller, Ron (22 de octubre de 2019). «Databricks announces $400M round on $6.2B valuation as analytics platform continues to grow». TechCrunch (en inglés) (Verizon Media). Archivado desde el original el 6 de septiembre de 2020. 
  26. Miller, Ron; Wilhelm, Alex (1 de febrero de 2021). «Databricks raises $1B at $28B valuation as it reaches $425M ARR». TechCrunch (en inglés estadounidense). Verizon Media. Archivado desde el original el 3 de noviembre de 2021. Consultado el 1 de julio de 2023. 
  27. Miller, Ron; Wilhelm, Alex (31 de agosto de 2021). «Databricks raises $1.6B at $38B valuation as it blasts past $600M ARR». TechCrunch (en inglés estadounidense). Yahoo!. Archivado desde el original el 30 de diciembre de 2021. Consultado el 14 de julio de 2023. 
  28. Armbrust, Michael; Ghodsi, Ali; Xin, Reynold; Zaharia, Matei (21 de enero de 2021). «Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics» (PDF). Conference on Innovative Data Systems Research (en inglés). Archivado desde el original el 22 de diciembre de 2020. 
  29. Gillin, Paul (1 de febrero de 2021). «With massive $1B infusion, Databricks takes aim at IPO and rival Snowflake». SiliconANGLE (en inglés estadounidense). Archivado desde el original el 6 de abril de 2023. Consultado el 15 de julio de 2023. 
  30. Simone, Stephanie (17 de octubre de 2022). «Databricks achieves FedRAMP Authorized status». KMWorld (en inglés) (Camden (Maine)). Archivado desde el original el 20 de octubre de 2022. Consultado el 15 de julio de 2023. 
  31. Woodie, Alex (24 de junio de 2020). «Databricks Cranks Delta Lake Performance, Nabs Redash for SQL Viz». Datanami (en inglés). Archivado desde el original el 9 de julio de 2020. Consultado el 15 de julio de 2023. 
  32. Johnson, Khari (24 de abril de 2019). «Databricks launches Delta Lake, an open source data lake reliability project». VentureBeat (en inglés estadounidense). Archivado desde el original el 9 de octubre de 2022. Consultado el 15 de julio de 2023. 
  33. «Databricks launches SQL Analytics». TechCrunch (en inglés). 12 de noviembre de 2020. 
  34. Brust, Andrew (1 de febrero de 2021). «Databricks, champion of data "lakehouse" model, closes $1B series G funding round». ZDNet (en inglés). Archivado desde el original el 1 de febrero de 2021. Consultado el 15 de julio de 2023. 
  35. «The Open Source Index: The Most Popular & Fastest Growing Open-Source Projects on GitHub». Two Sigma Ventures (en inglés). 17 de noviembre de 2021. Archivado desde el original el 29 de noviembre de 2022. Consultado el 15 de julio de 2023. 
  36. Talwalkar, Ameet; Joseph, Anthony (2 de diciembre de 2014). «Databricks to run two massive online courses on Apache Spark». Databricks (en inglés estadounidense). Archivado desde el original el 4 de enero de 2015. Consultado el 15 de julio de 2023. 
  37. «See the best of Summit». Databricks (en inglés). Archivado desde el original el 14 de julio de 2023. Consultado el 15 de julio de 2023. 
  38. staff, ed. (16 de junio de 2020). «36. Databricks». CNBC (en inglés). Archivado desde el original el 24 de diciembre de 2022. Consultado el 15 de julio de 2023. 
  39. «Worldwide locations». Databricks (en inglés estadounidense). 3 de marzo de 2023. Archivado desde el original el 7 de junio de 2023. Consultado el 15 de julio de 2023. 
  40. joshua1990, ed. (8 de agosto de 2021). «Databricks muy lento». fabric.microsoft. Consultado el 28 de noviembre de 2023. 
  41. «Small Spark dataframe very slow in Databricks». stackoverflow (en inglés). 25 de junio de 2021. Archivado desde el original el 8 de julio de 2022. Consultado el 28 de noviembre de 2023. 
  42. «PYODBC very slow - 30 minutes to write 6000 rows». Databricks (en inglés). 25 de junio de 2021. Consultado el 28 de noviembre de 2023. 
  43. «Solución de cuellos de botella de rendimiento en Azure Databricks». Microsoft. 26 de mayo de 2023. Consultado el 28 de noviembre de 2023.