Après avoir posé les bases de notre vision pour une plateforme de données moderne, il est crucial de passer à la phase concrète : le Proof of Concept (POC). Cette étape est un investissement essentiel pour valider nos choix technologiques et minimiser les risques liés à la mise en place d'une nouvelle infrastructure. Un POC bien mené nous assure que la solution choisie répondra aux besoins spécifiques de l'entreprise et qu'elle pourra s'adapter à ses évolutions futures.
Le POC n'est pas un simple test technique, mais une expérimentation qui permet de confronter nos hypothèses à la réalité. Il nous permet de vérifier si les outils et les technologies que nous avons sélectionnés fonctionnent comme prévu, s'ils sont adaptés à notre environnement et s'ils répondent à nos exigences de performance et de sécurité. C'est aussi l'occasion de tester la capacité de nos équipes à maîtriser ces nouveaux outils et à les intégrer dans leurs processus de travail.
Objectifs du POC
Notre POC avait pour objectifs principaux de valider techniquement les outils sélectionnés, d'évaluer leur performance et leur adéquation à nos besoins, et d'identifier les défis potentiels liés à leur mise en œuvre. Plus précisément, il s'agissait de :
- S'assurer que les outils fonctionnent comme prévu et qu'ils sont compatibles avec notre infrastructure existante.
- Évaluer la facilité d'utilisation, la performance et la capacité d'évolution de chaque outil.
- Identifier les problèmes potentiels liés à la configuration, l'intégration et l'utilisation des outils, afin de les résoudre avant un déploiement à grande échelle.
Le succès du POC serait mesuré par notre capacité à mettre en place un flux de données fonctionnel, à identifier les points forts et les faiblesses des outils, et à formuler des recommandations pour la suite du projet. En d'autres termes, il s'agit de s'assurer que notre investissement technologique est judicieux et qu'il apportera la valeur attendue.
Mise en place du POC : notre approche
Notre POC s'est déroulé en plusieurs étapes clés, en nous concentrant sur la mise en place d'un flux de données complet :
- Mise en place de l'environnement : installation des serveurs et des bases de données nécessaires pour tester les outils.
- Connexion des sources de données : intégration des différentes sources de données pour alimenter notre plateforme.
- Transformation des données : mise en place des processus pour structurer et organiser les données.
- Orchestration des flux : planification et automatisation des tâches pour assurer un flux de données continu.
- Visualisation des données : création de tableaux de bord pour analyser et comprendre les données.
Retours d'expérience : les défis rencontrés et les leçons apprises
Cette phase de mise en place nous a permis de tirer des leçons importantes sur chaque outil. Voici un résumé de nos retours d'expérience, en mettant l'accent sur les implications pour l'entreprise. Les aspects techniques seront détaillés dans une prochaine série d'articles :
❌ Extraction et Chargement (EL) - Airbyte :
- Ce que nous avons testé : Un outil pour collecter et transférer les données de différentes sources vers notre plateforme.
- Ce que nous avons appris : Bien que facile à utiliser au départ, cet outil a montré des limites en termes de performance et de coût. Nous avons rencontré des difficultés pour gérer de gros volumes de données, ce qui a impacté la stabilité de notre environnement de test.
- Implication pour l'entreprise : Nous avons décidé de ne pas retenir cet outil car il ne répondait pas à nos exigences de performance et de coût. Nous sommes en train d'évaluer d'autres solutions plus adaptées.
✅ Transformations - dbt :
- Ce que nous avons testé : Un outil pour structurer et organiser les données.
- Ce que nous avons appris : Cet outil est très performant pour transformer les données, mais il est crucial de bien planifier l'organisation des données dès le début.
- Implication pour l'entreprise : Nous avons confirmé que cet outil est essentiel pour la qualité de nos données, mais nous devons être plus rigoureux dans la planification de son utilisation. Il tient toutes ses promesses.
❌ Orchestration - Dagster :
- Ce que nous avons testé : Un outil pour automatiser et gérer les flux de données.
- Ce que nous avons appris : Bien que fonctionnel, cet outil a montré des problèmes de performance et des dysfonctionnements ponctuels.
- Implication pour l'entreprise : Nous avons finalement basculé sur Airflow, qui est aujourd'hui le standard dans le monde de la data. Nous avons beaucoup plus d'expérience sur Airflow et moins de problèmes en lien avec DBT.
✅ Visualisation des Données - Power BI :
- Ce que nous avons testé : Un outil pour créer des tableaux de bord et des rapports interactifs.
- Ce que nous avons appris : Cet outil est déjà utilisé en interne et répond à nos besoins en matière de visualisation des données.
- Implication pour l'entreprise : Nous continuerons à utiliser cet outil pour analyser et comprendre nos données. Son intégration native à la suite Office 365 de l'entreprise a favorisé son adoption massive.
Pour en savoir plus sur ces outils, découvrez cet article 👇

Conclusion
Bien que nous ayons conservé seulement deux des quatre outils initialement envisagés, nous considérons cela comme un succès. Cette démarche nous a permis d'éviter de nous enfermer dans des choix inadéquats. Il est essentiel de se demander quel sera le coût réel de ces mauvais choix à long terme. Les dépenses en maintenance, en temps de développement et en refonte de la plateforme peuvent rapidement devenir astronomiques. L'avantage d'une architecture de données moderne est qu'elle permet de remplacer des composants sans impact majeur sur l'ensemble du système. Il est donc judicieux d'en tirer parti. Cette expérience nous a permis de mieux comprendre nos besoins et de prendre des décisions éclairées pour la suite du projet.
Le succès d'une plateforme de données ne repose pas uniquement sur les outils, mais aussi et surtout sur les personnes qui la construisent et l'utilisent. Dans le prochain article, nous aborderons le rôle crucial des équipes data dans la mise en place et l'évolution de cette plateforme, en explorant les différents profils et les compétences nécessaires.