Radar listing - Transformer

12Airflow

Gérer des flux de données fait partie des tâches du data engineer, notamment la préparation de données ou le lancement de constructions de modèles. Or, cette gestion est devenue complexe, montrant les limites des outils classiques d’orchestration comme CRON. En 2014, Airbnb a créé Airflow en réponse à cette complexité croissante. Airflow est un outil open-source en Python qui est aujourd'hui le standard du marché pour l’orchestration de tâches. Il permet la création, le déploiement et le suivi de workflows.

Airflow modélise les flux de données sous forme de graphe de tâches. Un ordonnanceur planifie l'exécution des tâches en fonction de leurs dépendances, et les Sensors permettent de conditionner le lancement d’une tâche à un événement. Une interface web offre une vue d'ensemble des graphes. La notion de tâche ne présuppose rien sur les traitements effectués à l’intérieur, ce qui laisse une grande flexibilité quant aux cas d’utilisation d’Airflow. C’est donc un outil complet, utilisable pour presque n’importe quel contexte d’automatisation des processus de traitement des données, ce qui explique son adoption massive aujourd’hui. De plus, certains services Cloud proposent une version managée, telle que Google Cloud Composer, afin de faciliter le déploiement des workflows.

Airflow souffre toutefois d’une documentation difficile à utiliser et souvent peu fournie, même si cet inconvénient est tempéré par la grande taille de sa communauté. Aussi, communiquer de la donnée temporaire entre deux tâches est impossible à réaliser nativement sur Airflow : il faut alors utiliser un service de sauvegarde de données externe. C’est l’une des différences conceptuelles clés entre Airflow (où chaque nœud du DAG de traitement est une opération) et une alternative comme Dagster (où chaque nœud représente un état de la donnée).

Le point de vue Theodo

Aujourd'hui, nous recommandons Airflow pour une orchestration de tâches hétérogènes. En effet, la grande taille de sa communauté permet de trouver une réponse à la plupart des questions qu’une équipe peut se poser, et sa flexibilité permet de répondre à quasiment n’importe quel cas d’usage.

Le point de vue MDN

Airflow est une solution d'orchestration puissante et flexible, avec une communauté active et des mises à jour régulières. Airflow est très évolutif, mais pour des équipes peu techniques ou des besoins simples, d'autres options peuvent mieux convenir. Son adoption exige une bonne maîtrise de Python, des concepts propres comme les Hooks et Operators, ainsi que des bases en programmation fonctionnelle.

13Dataflow

À mesure que les entreprises dépendent de plus en plus d'un traitement rapide et efficace des données pour guider leurs décisions, elles cherchent à optimiser leurs performances. La gestion de vastes volumes de données provenant de diverses sources devient alors un défi majeur. Dataflow est un service GCP entièrement piloté qui répond à ces défis en fournissant une plateforme scalable et fiable pour le traitement de données en batch et en streaming. Dataflow est construit sur le modèle de programmation open-source Apache Beam, permettant aux développeurs de définir des pipelines de traitement de données qui sont agnostiques à l’infrastructure et donc transposables à travers différents environnements d'exécution.

Les principales forces de Dataflow incluent sa capacité à gérer des datasets volumineux et à traiter des données en streaming avec une faible latence. La nature de ce service élimine les contraintes de configuration des serveurs, tandis que sa capacité à s'ajuster automatiquement aide à gérer les coûts sans sacrifier la performance. Dataflow excelle dans les scénarios nécessitant une intégration de données robuste et des capacités analytiques en temps réel, telles que :

Les processus ETL pour charger et transformer des données dans BigQuery à des fins de business intelligence
L'ingestion en temps réel de flux de données provenant de dispositifs IoT ou d'applications

Malgré ses avantages, Dataflow peut être complexe à configurer et à optimiser, surtout pour les utilisateurs non familiers avec Apache Beam. Il peut également engendrer des coûts significatifs à grande échelle, particulièrement pour les applications de streaming à haut débit.

Le point de vue Theodo

Chez Theodo, nous considérons que Dataflow est une option puissante pour les entreprises qui cherchent une solution scalable, robuste et pilotée pour des tâches complexes de traitement de données en batch et en streaming. Cependant, un apprentissage conséquent est nécessaire pour les non-initiés à Apache Beam.

Le point de vue MDN

Dataflow nécessite d'utiliser Apache Beam pour implémenter le workflow, avec un modèle de programmation moins proche du SQL que Spark, et possède moins d'options pour la gestion de la mémoire par rapport à Spark/Flink. Il reste cependant plus simple à utiliser et présente de bonnes options pour faire du ML grâce à des machines avec GPU, ce qui en fait un bon outil de calcul distribué.

14dbt with unit testing

Avec la montée en puissance des pipelines de données, garantir la qualité des transformations est essentiel. dbt (Data Build Tool) offre une solution robuste pour automatiser les bonnes pratiques de développement SQL grâce à son système de tests unitaires permettant de valider les transformations tout en minimisant les erreurs en production. dbt est une plateforme open source pour la transformation de données dans les pipelines ETL/ELT. Elle propose deux versions : dbt Core (gratuit, utilisable en ligne de commande) et dbt Cloud (version payante avec des fonctionnalités avancées, comme un IDE intégré). dbt se connecte aux principales plateformes de données comme BigQuery, Snowflake, Redshift ou Databricks via des adaptateurs.

Son point fort réside dans la gestion des dépendances entre tables (via la déclaration de références et de sources), le refactoring via macros et l’intégration de la documentation. dbt permet aussi de définir des tests unitaires qui aident à valider le bon fonctionnement des requêtes SQL classiques. Grâce à cette fonctionnalité, il est possible de simuler des données avec des fichiers CSV, les seeds, et de comparer les résultats des transformations aux attentes. Cela permet de mettre en place et de maintenir dans la durée les bonnes pratiques de développement au cœur des requêtes SQL. C’est un facteur différenciant important par rapport à d’autres solutions comme Google DataFlow ou AWS Data Pipeline.

Toutefois, la création de ces tests unitaires vient avec quelques bémols à garder en tête :

Multiplication des fichiers mock (CSV) pour assurer une couverture complète.
Nécessité de maintenir la cohérence entre les tables mockées (IDs, relations entre tables).
Gestion complexe des cas de test pour les opérations complexes (jointures, group by).

Le point de vue Theodo

Nous recommandons dbt pour des pipelines robustes et maintenables, grâce aux tests unitaires qui soutiennent le développement continu et limitent l'apparition de code legacy. Cependant, pour des traitements massifs ou des cas très spécifiques, des outils comme Apache Spark ou DataFlow peuvent être plus adaptés, bien que dbt se distingue par ses bonnes pratiques.

15Dremio

Dremio est un moteur d’exécution SQL innovant conçu pour optimiser la gestion des données en permettant aux organisations de tirer parti de leurs data lakes et autres sources de données.

Côté technique, Dremio optimise l'accès et l'analyse des données directement à partir de diverses sources en proposant une couche de virtualisation qui permet aux utilisateurs de requêter les données sans avoir besoin de les déplacer, tout en offrant la possibilité de combiner des sources provenant de différents environnements de production. Il se concentre sur l'accélération des requêtes sur les data lakes grâce à l'utilisation de technologies telles qu'Apache Arrow, ce qui améliore considérablement les performances et permet d'exécuter des requêtes sur des tables contenant des millions de lignes en moins d'une seconde.

De plus, Dremio intègre un catalogue de données doté de fonctionnalités de sécurité au niveau des lignes, permet de créer un wiki et de suivre le lineage des données. Enfin, Dremio offre la possibilité de créer des vues virtuelles personnalisables pour chaque utilisateur. Ces vues peuvent être mises en cache pour accélérer le traitement des requêtes.

Côté métier, Dremio permet d'effectuer de nombreuses actions via une interface graphique intuitive, sans recourir au SQL : ajout de colonnes via des règles métiers, agrégations, jointures et filtres de colonnes.

Le point de vue MDN

Si vous recherchez un outil qui vous permet de virtualiser les données sans impacter la source, tout en adoptant une approche orientée métier, Dremio est la solution idéale.

16Kestra

Automatiser et orchestrer des pipelines de données peut vite devenir complexe, surtout avec des outils traditionnels. Kestra est une solution open-source moderne qui simplifie ce processus et apporte flexibilité et scalabilité. La configuration des workflows dans Kestra se fait via des fichiers YAML, facilitant la définition des tâches, des dépendances et des conditions. L’absence de code complexe rend l’orchestration accessible à tous et permet de mutualiser un outil entre les équipes de développeurs et de data.

Kestra se distingue par son système de plus de 500 plugins qui permet d’étendre les capacités de la plateforme. On peut facilement intégrer des bases de données, interagir avec des services cloud tels que AWS S3, ou même lancer des commandes bash. L’outil permet le déclenchement de workflows en réponse à des événements : fichier déposé, modification dans une base de données, ou notification d’API, ce qui le rend idéal pour du temps réel. Grâce à son architecture distribuée, Kestra permet de gérer des milliers de tâches simultanément. Si votre volume de données explose, Kestra suit le rythme sans compromettre les performances.

L'outil offre également une interface claire et moderne pour surveiller l’exécution des workflows en temps réel : vous savez exactement où ça coince et pouvez redémarrer des tâches individuelles sans relancer tout un pipeline. Il est également possible d’utiliser l’API, et même de déployer l'outil via un simple docker-compose. Cependant, l'outil est encore jeune et l'écosystème pas encore très mature, mais les releases sont fréquentes.

Le point de vue MDN

À utiliser, ou en tout cas tester. Kestra est un très bon outil pour mutualiser l'utilisation avec plusieurs pôles au sein d'une entreprise sans avoir de dépendance à un langage particulier. Il se prend en main plus facilement qu'Airflow et permet d'exécuter tout type de code - même SQL - au travers de ses workflows.

17Lambda / Cloud Run Functions

AWS Lambda et Google Cloud Run Functions sont des services de serverless computing permettant d'exécuter du code en réponse à des événements, sans avoir à provisionner d'infrastructure sous-jacente. Ces solutions permettent aux développeurs de se concentrer sur la logique métier plutôt que sur la gestion des serveurs. Ces fonctions sont idéales pour les pipelines de transformation de données, en particulier lorsque les charges de travail sont intermittentes ou imprévisibles. Elles sont invoquées automatiquement en réponse à des événements tels que des requêtes HTTP, des modifications de bases de données ou des uploads de fichiers dans un stockage cloud.

L’un des principaux avantages des fonctions Lambda et Cloud Run Functions est leur tarification à la demande, facturant uniquement le temps d'exécution, ce qui réduit les coûts d'infrastructure. De plus, ces services offrent une grande scalabilité automatique, ajustant les ressources en fonction de la demande sans intervention manuelle. Ils simplifient également la maintenance grâce à des intégrations avec des outils de monitoring et logging pour surveiller les performances en temps réel et résoudre les problèmes de manière proactive.

Cependant, ces fonctions présentent quelques contraintes. Elles sont souvent limitées à quelques minutes d'exécution et peuvent rencontrer des difficultés à traiter des volumes de données importants en une seule exécution. De plus, le conteneur temporaire utilisé pour exécuter les fonctions entraîne des problèmes de latence dus au temps de démarrage.

Le point de vue Theodo

Chez Theodo, nous utilisons AWS Lambda et Google Cloud Run Functions pour exécuter des pipelines de transformation de données de manière efficace et scalable. Nous recommandons ces technologies pour des courtes tâches, autonomes et réactives, nécessitant une exécution à la demande et une gestion optimisée des coûts.

18Medaillon architecture

La medallion architecture est un framework introduit par Databricks pour structurer les flux de données dans les Data Lakes et mieux séparer les cycles de qualité de donnée. Cette structure consiste en trois couches successives de transformations :

Bronze, pour l’ingestion des données brutes ;
Silver, pour le nettoyage des données et leur mise en conformité ;
Gold, pour l’agrégation et les transformations métier. Ce concept simple permet d’améliorer significativement la qualité d’une série de transformations de données, que ce soit dans une plateforme data ou dans un gros fichier Excel.

En garantissant le découplage des données brutes (bronze) et des données consommées (gold), elle permet de maintenir une forte évolutivité des flux de données. L’architecture en médaillon incite à limiter les responsabilités de chaque table, ce qui facilite la compréhension et la modification des règles de calcul, ou même la migration d’une source de données vers une autre.

Toutefois, dans une architecture en médaillon, la donnée est souvent dupliquée (donnée brute, nettoyée, filtrée…), ce qui peut engendrer des coûts non négligeables pour des organisations stockant des volumes de données déjà élevés. Certains flux peuvent être moins optimisés que s’ils se faisaient en une seule étape, et l’augmentation du nombre de tables et de dépendances peut rallonger les durées des workflows. On notera que ces coûts sont en général largement compensés par le gain en temps de main-d’œuvre.

Finalement, ce framework est devenu un standard de l’industrie, au même titre que le modèle staging / intermédiaire / datamart poussé par dbt.

Le point de vue Theodo

Nous recommandons chaudement l’utilisation de l’architecture en médaillon sur vos projets data, afin de garantir leur évolutivité et faciliter la collaboration. Chez Theodo, nous adaptons également ce framework en re-découpant chaque couche en plusieurs niveaux de qualité pour en tirer encore plus de bénéfices.

19Synapse

Azure Synapse Analytics est la plateforme analytique intégrée de Microsoft, qui vise à unifier l'analyse des données et le traitement des big data. Son interface épurée permet une prise en main rapide et facilite la gestion des données et des processus analytiques. Son intégration fluide avec les outils Microsoft comme Power BI facilite la visualisation des données.

Synapse offre des notebooks supportant PySpark, SQL et d’autres langages, permettant l’analyse de données complexes et une collaboration au sein d’une même interface. Le système d'orchestration intègre facilement ces notebooks et autres tâches, accélérant ainsi l'industrialisation et simplifiant la gestion des pipelines. La mise en place de triggers permet d’automatiser les tâches et les processus.

Synapse combine les capacités d’un datawarehouse traditionnel avec celles des systèmes de traitement de big data, permettant de stocker et d’analyser de vastes volumes de données structurées ou non structurées, tout en offrant des capacités d’analyse en temps réel et de traitement par batch. Il inclut également des fonctionnalités avancées de sécurité et de gestion des accès, garantissant la protection et la restriction des données aux personnes autorisées.

Synapse se démarque par sa scalabilité et son rapport coût-efficacité. Il permet de gérer des charges de travail croissantes sans compromettre les performances, et son modèle de tarification flexible offre une solution économique pour les entreprises cherchant à maximiser leur ROI dans l'analyse des données.

Le point de vue MDN

Azure Synapse Analytics est une solution puissante et complète pour les entreprises cherchant à unifier leurs efforts d'analyse de données, de traitement de big data et de création de pipelines. Elle est particulièrement recommandée si vous êtes dans l’écosystème Microsoft, avec lequel elle offre une forte intégration.