Data Engineering

mai 28, 2024 • 6 min read

Construire sa data plateforme : les 10 défis à anticiper (2/2)

Rédigé par Achille Huet

Dans la partie précédente sur comment construire sa data plateforme, nous avons évoqué les défis techniques considérables que la mise en place d’une data plateforme peut représenter. Ceux-ci ne représentent cependant que la moitié de la bataille : faire vivre une data plateforme nécessite les efforts de toute l’organisation, pas seulement ceux de l’équipe technique.

Les défis organisationnels

La data plateforme centralise les données de de l’intégralité de l’entreprise, et permet de représenter tous les cœurs de métier. Pour permettre les meilleures analyses possibles, la data plateforme doit être en perpétuelle évolution pour pouvoir modéliser les défis actuels des différentes équipes. Cela signifie que lorsque l’entreprise change, les données de la data plateforme doivent également changer. Cette évolution nécessite une coordination entre les équipes tech et les équipes data, et demande un changement radical de l’organisation qui devient alors data-driven.

Quels sont les défis à surmonter pour changer son organisation et devenir data-driven ?

Mettre en qualité les données

Lorsqu’on construit un produit data, la qualité du produit c’est la qualité de la data. Ce principe s’applique d’autant plus pour une data plateforme, puisque la mauvaise qualité de données a des répercutions :

sur le temps de développement, car les données de mauvaise qualité sont imprévisibles et il faut souvent prendre en compte des cas limites compliqués
sur les utilisateurs, qui perdent confiance en l’outil lorsqu’ils voient que la donnée ne reflète pas la réalité

Cette perte de confiance a des conséquences graves, puisque les utilisateurs vont alors perdre du temps à vérifier les nombres affichés par l’outil, ou même le délaisser entièrement. C’est en général le plus gros obstacle à l’adoption d’une data plateforme. Il est donc crucial d’éviter ces problèmes de qualité.

Cette mise en qualité doit être faite par les équipes techniques dans un premier temps pour s’assurer que les données peuvent être comprises et analysées. C’est ensuite aux équipes métiers qui exploitent ces données de s’assurer qu’elles correspondent bien à la réalité, et d’informer les data engineers des éventuelles corrections et améliorations nécessaires. Il s’agit donc d’un travail collectif, à piloter à l’échelle de l’entreprise.

Maîtriser les sources de données

Lors de la création d’une data plateforme, il faut intégrer différentes sources de données, dont certaines qu’on connaît moins, soit parce qu’elles sont gérées par des équipes d’un autre service ou même par une autre entreprise, soit parce qu’il s’agit de données legacy dont plus personne n’a la connaissance.

Le problème est alors multiple :

les données sont difficiles à interpréter et transformer car il n’y a pas de moyen d’être certain de leur sens
les données ont peu de valeur car leur qualité est compliquée à évaluer
il y a un risque que les données changent sans être prévenu

Lors d’un de mes projet, nous étions branchés sur des tables gérées par une équipe à l’étranger. Il est arrivé que cette équipe fasse des modifications de champs sans nous alerter, et que nos données soient totalement fausses le lendemain. Pour palier ce problème, nous avons contacté l’équipe pour mettre en place des SLA, un contrat d’interface, et des tests automatiques pour détecter des modifications imprévues.

De manière générale, les sources de données inconnues génèrent beaucoup de perte de temps et de frustration, car elles obligent à faire beaucoup d’hypothèses (souvent fausses) sur leur sens et la bonne manière de les gérer. Il est ainsi fréquent de devoir itérer plusieurs fois sur le calcul d’un champ ou d’un KPI car certaines données n’ont pas le comportement attendu.

S’assurer que toutes les équipes sont alignées sur les caractéristiques attendues des données permet d’améliorer la qualité, mais aussi la robustesse de la data plateforme. Cette robustesse est nécessaire pour créer de la confiance chez les utilisateurs, et est donc la base d’une bonne data plateforme.

Définir les KPIs métier

Un problème extrêmement fréquent lors de la mise en place de différentes métriques est que les équipes métiers ont chacune leur définition d’un même KPI. Dans le cas d’un calcul de marge, certaines personnes consultent la marge brute, ou la marge nette, avec ou sans externes, avec ou sans immobilisations, etc.

L’automatisation du calcul de ces KPIs dans une data plateforme met en lumière ces définitions différentes, et il faut alors choisir la “bonne” définition. Le risque ici est d’imposer arbitrairement une formule, sans commun accord - certaines personnes se sentiraient lésées et exclues de la data plateforme, et pourraient continuer à faire leurs calculs dans leur coin. Une manière d’aborder ce problème est de trouver une personne du métier qui sera owner du KPI, et qui définira la bonne manière de le calculer en accord avec les autres acteurs métier.

En parallèle, on pourra sensibiliser les équipes aux bienfaits de cette uniformisation : avoir une vision commune, pouvoir s’aligner sur des objectifs, éviter les quiproquos. Cette uniformisation permet également de détecter les problèmes de qualité de données en obligeant le métier à définir les cas nominaux et limites des données sources, et donc de définir un niveau de qualité attendu.

Par exemple, le fait de définir le nombre d’employés dans l’entreprise permet de mettre en lumière des règles sur les contrats des employés : il ne doit pas y avoir de chevauchements de contrats, la date de début doit être définie, etc. Il est alors possible de détecter automatiquement les contrats qui ne respectent pas ces règles, et de les modifier en conséquence.

Former les métiers

Une fois que la data plateforme a été mise en place, et que les données ont été exposées aux équipes métier, il faut s’assurer que tout le monde est en mesure de les consulter, les explorer et les analyser. En effet, les équipes métier sont souvent friandes de data, mais se retrouvent démunies face aux outils qu’elles ne savent pas utiliser.

Il faut donc commencer par une formation à l’utilisation des outils data, en expliquant :

où sont exposées les données
comment on peut filtrer, exporter, visualiser ces données

Il faut également former les équipes sur le contenu et le sens des données pour qu’elles sachent lesquelles utiliser pour leurs différents cas d’usage. Il est ainsi important de préciser :

la liste des données disponibles : on pourra se restreindre à un ensemble de données qui semble pertinent pour les interlocuteurs
la source des données : certaines infos sont parfois redondées dans plusieurs sources, qui diffèrent légèrement. Il faut donc expliquer leurs différences et les cas d’usages associés.
les transformations appliquées
qui est l’owner métier : c’est vers eux qu’il faut rediriger les questions qui ne sont pas techniques

Cette formation étant en principe dispensée par les équipes data, il faut s’assurer de la rendre scalable à l’échelle de l’entreprise. Il est donc crucial de documenter toutes ces informations : avoir une base de connaissance qui explique les données, comment les interpréter, ainsi que des vidéos pour former à l’utilisation des outils de BI.

Mettre en place une data gouvernance

Etre en capacité de détecter les problèmes de data quality n’est pas suffisant, il faut également pouvoir les résoudre de manière efficace et pérenne.

Une première approche serait de mettre en place des correctifs dans la data plateforme lorsque le métier remonte des différences entre les chiffres de la data plateforme et leurs chiffres à eux. Cela permet une résolution rapide, mais peu pérenne : au cours du temps les correctifs s’empilent, les règles métier s’oublient, et la complexité du code augmente fortement. On se retrouve alors avec une équipe data débordée, un ensemble de données où on ne sait plus quelle table applique quelle règle, et des chiffres qui se contredisent tous.

C’est pour cette raison qu’il faut mettre en place une data gouvernance, c’est à dire créer des process et des règles qui garantissent une qualité de données optimale, et ce dès la source. Il faut notamment :

acculturer les équipes métiers aux enjeux de la data et définir des owners qui sont responsables de la qualité de la donnée générée ou récoltée
définir des process et des normes pour améliorer la qualité et assurer la gestion adéquate des données (ex: respect de la RGPD)

Dans une organisation optimale, c’est donc les équipes qui génèrent la donnée qui sont responsables de sa qualité. Des budgets peuvent être alloués par l’entreprise pour recruter ou mobiliser des développeurs afin de faire les modifications nécessaires, en fonction d’un arbitrage global réalisé par rapport aux besoins actuels. Un nouveau produit qui exploite un champ mal formaté pourra ainsi appuyer une demande pour l’intervention d’un développeur et la mise en qualité de ce champ en démontrant le gain financier associé.

Cette transformation nécessite un travail colossal pour former et convaincre tous les acteurs concernés. L’instauration de “champions” est donc ici une manière idéale d’accélérer le processus, en diffusant une culture et une appétence pour la data dans toute l’entreprise. En tirant l’amélioration de la qualité de leurs données, les champions permettent à leurs équipes d’avoir accès à des KPIs plus fiables, et donc à mieux piloter leur travail. Dans les grandes entreprises, cette transformation nécessite également la mise en place de comités data, où les différents owners se réunissent pour remonter leurs besoins et décider des chantiers prioritaires.

C’est ensuite aux équipes data de fournir les bons outils aux équipes métier pour qu’ils puissent monitorer et corriger les données, grâce à des dashboards de qualité de données et de l’alerting, qui peuvent être mis en place rapidement grâce à des outils comme Sifflet. Les équipes data doivent également réserver une part de leur bande passante pour d’éventuels bugs ou évolutions de règles métier. Il faudra cependant veiller à ce que les équipes métier restent owner de ce changement, pour éviter de trop solliciter les développeurs .

On rentre alors dans le cercle vertueux de l’entreprise data-driven : les équipes utilisent les données pour mieux prendre des décisions, elles suivent et détectent donc davantage de problèmes de qualité qui sont alors corrigés, ce qui augmente la fiabilité et permet de piloter davantage ses décisions grâce aux données.

image_59992352091938deeec27854bb0b811e_2000-min

Cercle vertueux de la qualité de données

Conclusion

La mise en place et l’adoption d’une data plateforme nécessite une transformation de l’entreprise, en terme de formation et sensibilisation aux enjeux de la data, de responsabilisation, et de mise en place de process de data gouvernance. Ces éléments permettent d’améliorer la data quality, et d’assurer l’évolution de la plateforme en parallèle de celle de l’entreprise et de ses enjeux stratégiques.

Positionner les équipes métiers au centre de cette transformation de l’entreprise permet de les responsabiliser en tant que client et utilisateur, ce qui est clé pour qu’elle soit un succès. La data plateforme doit être un outil pour eux, pour leur permettre d’être plus efficaces dans leur quotidien, et prendre des décisions mieux informées. Il faut donc les convaincre et les embarquer sur les processus liés à la data plateforme, ce qui nécessite d’avoir des convictions fortes sur les perspectives et les enjeux de la data - au fur et à mesure qu’ils adhèrent et participent à cette data plateforme, l’entreprise deviendra data-driven.

Si vous cherchez des experts pour mettre en place votre propre data plateforme, contactez-nous !

Cet article a été écrit par

Achille Huet