Apache Airflow

De Wikipedia, la enciclopedia libre
Esta es una versión antigua de esta página, editada a las 16:56 8 oct 2020 por Aosbot (discusión · contribs.). La dirección URL es un enlace permanente a esta versión, que puede ser diferente de la versión actual.
Apache Airflow
Información general
Tipo de programa software libre
Autor Maxime Beauchemin
Desarrollador Apache Airflow
Licencia Apache License 2.0
Información técnica
Programado en Python
Versiones
Última versión estable 1.10.10 ( 2020 de abril del 09)
Enlaces

Apache Airflow es una plataforma de gestión de flujo de trabajo de código abierto escrita en Python, donde los flujos de trabajo se crean a través de scripts de Python. Fue creada por Airbnb en octubre 2014 como solución para la gestión de flujos de trabajo dentro de la empresa.[1]​ Al crear Airflow, Airbnb logró manejar más fácilmente sus flujos de trabajo y controlarlos gracias a la interfaz de usuario incluida en Airflow. [2][3]​ Desde el principio, el proyecto fue distribuido como código abierto, se convirtió en un proyecto de Incubadora de apache en marzo de 2016 y un proyecto de software de nivel superior de la Fundación Apache en enero 2019.

Airflow está escrito en Python, y los workflows son creados vía scripts en Python. Airflow Está diseñado bajo el principio de "configuración como código". Si bien hay otras plataformas de flujos de trabajo que también trabajan bajo el principio "configuración como código", la mayoría utiliza XML. Al utilizarse Python en Airflow, los desarrolladores pueden importar bibliotecas y clases para ayudarles crear sus flujos de trabajo.

Visión general

Airflow utiliza gráficos acíclicos dirigidos (DAG) para gestionar la orquestación del flujo de trabajo. Las tareas y dependencias se definen en Python y luego Airflow gestiona la programación de tareas y la ejecución. Los DAG se pueden ejecutar en un horario definido (por ejemplo, cada hora o cada día) o en función de la ocurrencia de eventos externos (por ejemplo, un archivo que aparece en Hive[4]​). Los programadores anteriores basados en DAG como Oozie y Azkaban tendían a depender de múltiples archivos de configuración y árboles del sistema de archivos para crear un DAG, mientras que en Airflow, los DAG a menudo se pueden escribir en un solo archivo Python.[5]

Proveedores gestionados

Dos proveedores notables ofrecen servicios auxiliares en torno al proyecto central de código abierto. Astronomer ha creado una herramienta SaaS y una pila de Airflow desplegable bajo Kubernetes que ayuda con la supervisión, alertas, devops y gestión de clústeres.[6]​ Cloud Composer es una versión administrada de Airflow que se ejecuta en Google Cloud Platform (GCP) y se integra bien con otros servicios de GCP.[7]

Referencias

  1. «Apache Airflow». Apache Airflow. Archivado desde el original el 12 de agosto de 2019. Consultado el 30 de septiembre de 2019. 
  2. Beauchemin, Maxime (2 de junio de 2015). «Airflow: a workflow management platform». Medium. Archivado desde el original el 13 de agosto de 2019. Consultado el 30 de septiembre de 2019. 
  3. «Airflow». Archivado desde el original el 6 de julio de 2019. Consultado el 30 de septiembre de 2019. 
  4. Trencseni, Marton (16 de enero de 2016). «Airflow review». BytePawn. Archivado desde el original el 28 de febrero de 2019. Consultado el 1 de octubre de 2019. 
  5. «AirflowProposal». Apache Software Foundation. 28 de marzo de 2019. Consultado el 1 de octubre de 2019. 
  6. Lipp, Cassie (13 de julio de 2018). «Astronomer is Now the Apache Airflow Company». americaninno. Consultado el 18 de septiembre de 2019. 
  7. «Google launches Cloud Composer, a new workflow automation tool for developers». TechCrunch (en inglés estadounidense). Consultado el 18 de septiembre de 2019.