Dans un mode de plus en plus connecté et créant de plus en plus de données de diverses sources, mobiles, IoT, ordinateurs fixes, sites web… Les entreprises capables de stocker la donnée et d’en tirer de la valeur sont et continueront d’être les plus fructueuses. Cependant, avoir de la donnée et des systèmes de transformations et de valorisation comme dbt ou dataform n’est pas suffisant.
Il est important d’avoir un orchestrateur comme Airflow. Pas de panique, nous vous disons tout.
Airflow est un service open source de data orchestration. Il remplit la tâche primordiale de récupérer les données pertinentes des différentes sources et de lancer les processus de transformation qui vont les amalgamer dans un ensemble enrichi et cohérent.
Là où un ETL classique se concentre sur l’intégration point à point de la donnée, airflow se distingue en offrant différentes features de haut niveau comme l’ordonnancement des process et l’utilisation de Directed Acyclic Graphs (DAGs) qui indiquent précisément l’ordre d'exécution des tâches de transformation de données, empêchant ainsi les retours en arrière, les boucles, appels à des sources inexistantes…
Des features notables d'airflow sont :
- Opérateurs personnalisés: Airflow permet de développer des opérateurs, sensors et hooks personnalisés pouvant s'intégrer dans différentes technologies. Cela permet d'interagir et d'orchestrer un large panel de sources de données pour ajouter de la flexibilité et de l'adaptabilité à vos processus
- Workflows dynamiques, planning et monitoring: Airflow offre des systèmes de planification basés sur une date d'exécution, des triggers externes ou d'autres conditions. Il offre également une interface web pour le monitoring et le management des workflows. Cela permet une grande flexibilité, de l'automatisation des process de l'ingestion de la donnée jusqu'à la création de logs en temps réels.
- Communauté et écosystème: la communauté Airflow est très dynamique et active et contribue beaucoup à l'écosystème. Cela permet une amélioration continue d'Airflow quant à sa robustesse et de nouvelles intégrations.
Cela améliore drastiquement l’efficacité et la fiabilité des processus d’ET/ De plus, les DAGs étant créés via le langage python, cela permet de se reposer sur les bonnes pratiques de code tout en bénéficiant de la flexibilité du langage, ce qui offre une grande marge de manœuvre dans les processus.
Y a-t-il des alternatives à DBT ?
Eh oui ! Si DBT ne vous convient pas, il existe d'autres outils sympas comme Dataform (Google Cloud), parfait pour les fans du cloud, Airflow (Apache), le roi de l'orchestration de workflows, Prefect, qui se veut plus simple et flexible, ou encore Matillion, qui brille par son interface graphique et ses options de monitoring. Le choix dépend vraiment de vos besoins et de vos préférences !