mai 25, 2022 • 6 min read

9 facteurs clés pour bien préparer un projet Big Data

Rédigé par Nicolas Jean

Nicolas Jean
 
 

D’après cet article de Forbesplus de la moitié des entreprises ont lancé des projets Big Data et plus de 30 % envisagent de le faire !

Pour des projets Data, les principaux challenges sont les suivants :

  • L’objectif business : il doit être clair dès le début du projet.

  • La compréhension des données : il faut comprendre ce qu’elles représentent et sous quelle forme. Il faut aussi savoir quelles sont les informations accessibles et inaccessibles.

  • La mise en œuvre technique : il faut maîtriser les technologies nécessaires.

Une bonne façon d’adresser ces challenges et de réduire les risques, c’est de commencer par un POC Data (Proof Of Concept Data).


Qu’est-ce qu’un POC Data ?

 

Un POC data suit une  démarche exploratoire.  Son but est d’identifier et  lever les risques  pour le projet. Voici  9 conseils à garder à l’esprit pour réussir votre POC data  et passer de terre inconnue à terrain connu !
 

1- Identifier un objectif business et un objectif opérationnel

 

Un POC data se rattache à des objectifs identifié pour le projet. Un projet Big Data doit être lié à un objectif business et à un objectif opérationnel.

  • L’objectif business est un objectif de l’entreprise sur lequel elle souhaite agir. Exemple : “passer de 10 000 ventes digitales à 20 000 en 2018”. En revanche, un objectif comme “améliorer le reporting des incidents” n’est pas un bon objectif business. On ne peut pas savoir si il est vraiment atteint. On ne peut pas non plus mesurer la distance par rapport à l’objectif. On ne sait pas non plus quand l’objectif doit être atteint.

  • L’objectif opérationnel est un objectif sur lequel l’équipe de projet Big Data est autonome. Il doit aller dans le sens de l’objectif business. “Livrer un chatbot qui permet à un utilisateur de choisir son produit en moins de 5 minutes” est un bon exemple d’objectif opérationnel. “Livrer un chatbot permettant d’augmenter les ventes digitales de 50 %” est un mauvais exemple d’objectif opérationnel. L’équipe n’est pas autonome pour remplir cet objectif : elle dépend de facteurs extérieurs pour atteindre le chiffre de 50 %.

Quand on commence un POC data, il faut savoir sur quels critères on va l’arrêter ! Il est inutile d’évaluer, via un POC data, la faisabilité d’un projet qui n’est pas lié à un objectif business. Il faut également avoir une base de départ pour l’objectif opérationnel, même s’il n’est pas définitif. Le POC data a les objectifs suivants :

  • Préciser l’objectif opérationnel,

  • Savoir si l’objectif opérationnel est atteignable ou inatteignable.

On peut considérer que le POC data est terminé lorsque ces deux objectifs sont remplis.

 

2- Définir un plan avec des jalons

 

Il est important de découper le POC en plusieurs sous-tâches à effectuer pour former un plan vers le succès. L’idéal est que ce plan permette de valider régulièrement des résultats de ces sous-tâches. Il peut être utile de fixer des dates jalons afin de faire le point sur l’avancement du POC. L’idée est de diminuer le temps de réaction en cas de problème.

Le dernier POC data auquel j’ai participé a duré un peu plus de 3 semaines, et plusieurs jalons ont été définis pour faire le point sur l’avancement. Le détail des tâches à effectuer était planifié à mesure que la compréhension des données s’améliorait. Néanmoins, il suivait un plan global. À un moment, nous avons perdu plusieurs jours à effectuer des analyses sur des données non pertinentes. Suite à cela, nous avons décidé de découper le POC en tâches de moins d’une journée et de faire un point d’avancement quotidien. Cela nous a permis de perdre moins de temps à effectuer des tâches qui ne faisaient pas réellement avancer le POC.

Il ne faut donc pas hésiter à découper le POC en tâches de petite tailles, qui peuvent être traitées en quelques heures à quelques jours.

 

3- Mettre à jour régulièrement les objectifs et le plan

 

En pratique, le plan du POC data et l’objectif opérationnel du projet évoluent au cours du POC. La conception du plan n’est jamais terminée. Il est difficile de connaître les sous-tâches à l’avance, et plus difficile encore d’estimer correctement leur durée/complexité. C’est en réalisant les premières tâches que l’on monte en compétence et que l’on peut définir plus précisément les tâches suivantes. Le plan et les jalons sont donc en évolution permanente au cours du POC. Ils doivent logiquement devenir de plus en plus précis.

Lors du dernier POC data auquel j’ai participé, un obstacle a été identifié qui a rendu non pertinent le plan initial. Afin de continuer à planifier les tâches du POC, il fallait qu’elles s’inscrivent dans un nouveau plan. C’est pourquoi nous avons pris le temps de reconstruire un nouveau plan avant de continuer. Cela a permis d’une part de clarifier ce qu’il restait à faire pour terminer le POC, et d’autre part de mieux communiquer sur notre démarche.

Cette démarche itérative et adaptative est un des principes des méthodes agiles. Il est possible d’utiliser la méthode Kanban au cours d’un POC data. C’est la méthode que nous avons utilisée.

 

4- Avoir un management visuel

 

Le plan sert à donner de la visibilité sur ce qui a été fait et ce qu’il reste à faire. Pour donner une bonne visibilité, il faut privilégier une représentation visuelle ! Un graphique de type flux, avec des couleurs montrant l’état des différentes étapes, peut s’avérer plus utile qu’on ne croit. Le management visuel permet de voir l’avancement en un coup d’œil. Il permet aussi d’identifier les points bloquants au plus tôt. Il est particulièrement adapté pour donner de la visibilité aux personnes qui payent pour étudier la faisabilité du projet.

Lors du dernier POC data auquel j’ai participé, nous avons utilisé un management visuel inspiré de la méthode Kanban. Nous mettions les tâches à effectuer sur des post-it placés dans 3 colonnes : “à faire”, “en cours” et “fini”. Ce management visuel est très rapide à mettre en place et facile à mettre à jour. Nous utilisions aussi des représentations sous forme de flux semblables à l’image ci-dessus.

5- Avoir un critère précis pour valider chaque étape

Il faut pouvoir dire si les résultats obtenus sont acceptables ou pas. Certains jalons peuvent être des points de contrôle : en fonction des résultats intermédiaires obtenus, on décide alors de poursuivre ou pas le POC. Par exemple, si un jalon est l’obtention d’une donnée critique pour le projet et que durant le POC il s’avère que la donnée n’est pas disponible, on peut prendre la décision d’arrêter le POC (et de ne pas donner suite au projet). Chacun des jalons doit être associé à des critères de validation précis. Il faut éviter les conclusions ambiguës.

Au cours du dernier POC data auquel j’ai participé, sur une tâche qui avait pris environ 1 semaine, nous avons rencontré un blocage. La tâche en question avait été découpée en sous-tâches de moins d’une journée, qui avaient toute été validées. Cependant, au moment de valider le résultat final, il est apparu que la méthode utilisée n’était pas acceptable. Nous avons donc perdu 1 semaine. Si nous avions essayé de définir dès le départ des critères de validation précis pour cette tâche, nous n’en aurions pas trouvé. Cela nous aurait conduit à changer directement de stratégie, sans perdre 1 semaine de travail.

6- Commencer par des choses simples

Le but du POC data est de lever les incertitudes et prévenir les risques pour le projet. Il ne s’agit pas de faire une première version du projet ! Il est raisonnable de prendre le périmètre le plus petit possible. Il n’est pas nécessaire de produire un système capable de passer à l’échelle. Mettez de côté les points identifiés comme de simples détails.

7- Utiliser les technologies les plus adaptées

Il faut adapter les technologies utilisées au contexte du POC data. Dans un contexte d’une entreprise qui possède déjà les experts et l’infrastructure adaptés, le risque associé aux problèmes techniques est plus faible. Il faut alors utiliser les outils permettant de faire le POC le plus rapidement possible. Par exemple, travailler en local avec un échantillon de données permet d’avancer plus rapidement que de travailler sur l’ensemble des données dans un cluster Hadoop. 

8- Rester en lien avec l’expertise métier

Lors d’un POC data, il est fréquent que l’expertise en analyse de donnéesou datascience, l’expertise métier et l’expertise des données elles-mêmes soient détenues par des personnes différentes. La communication entre les personnes techniques et les experts métiers et données est cruciale pour la réussite d’un POC data. Les personnes effectuant le travail technique d’analyse de données peuvent perdre beaucoup de temps à cause de leur manque d’expertise métier ou de leur manque de compréhension des données. Elles peuvent effectuer du travail inutile ou commettre des erreurs d’interprétation des données. Pour reprendre l’exemple cité dans le 2ème point, il est parfaitement possible qu’un Data Scientist passe une journée à travailler sur des données non pertinentes, alors qu’un expert des données est capable de dire immédiatement que c’est inutile. De même, quand un résultat intermédiaire est interprétable d’un point de vue métier, il est bon de procéder à une vérification. Il ne faut pas hésiter à présenter des résultats intermédiaires et des plans d’investigation à des experts métiers et des experts des données, et ce aussi souvent que possible.

9- Apprendre des expériences des autres

Il est bon de se renseigner afin de savoir si des personnes extérieures à l’entreprise ont déjà fait face aux mêmes problèmes. Si c’est le cas, il faut aller vers ces personnes avant de réinventer la roue. Si le problème a une solution simple, autant gagner du temps en faisant appel à des personnes l’ayant déjà mise en œuvre. Si le problème est complexe, autant se renseigner sur les difficultés rencontrées par des personnes ayant déjà fait des expériences. Le rapport bénéfice-risque est favorable : pour quelques heures investies à organiser une réunion, on peut économiser des semaines de travail.

Le POC data est un outil essentiel pour maîtriser les risques et planifier des projets Big Data. Les décisions prises au début d’un projet sont celles qui ont le plus d’impact sur le succès. J’espère que cet article vous aura donné des pistes pour faire de votre propre expérience des POC data un succès.

Si vous souhaitez en savoir plus sur les projets de Data que nous menons chez Sicara, contactez-nous  ! 

 

Cet article a été écrit par

Nicolas Jean

Nicolas Jean