L’industrialisation de la data science est un processus assez complexe. Pour comprendre comment les données sont analysées concrètement, nous allons suivre le parcours chronologique type d’un projet de data science en commençant par le prototype jusqu’à la production.
Data scientists : comment travaillent-ils ? Quelles sont leurs compétences ?
Industrialiser la data science ou sciences des données est le domaine de prédilection des data scientists. C’est eux qui mettent en place tout le processus de traitement des données, de leur récupération à leur exploitation.
Pour exercer le métier de data scientist, il faut s’appuyer sur des compétences précises :
· Des compétences mathématiques et plus particulièrement des connaissances en statistiques ;
· Des compétences informatiques (en programmation avec les langages Python ou R mais aussi en maîtrise des outils propres à la data science) ;
· Et idéalement, des compétences métiers issues du domaine d’activité dans lequel il œuvre (marketing, banque…).
Autrement dit, c’est une vraie perle rare qu’il faut dénicher aujourd’hui ! C’est d’autant plus vrai que les formations sont encore peu nombreuses et que les spécialistes sont rares.
Examinons maintenant plus précisément les étapes du travail d’un data scientist.
Les préalables au projet : du PoC au prototype
Avant toute chose, réussir un projet de data science passe par plusieurs étapes, à ne pas « griller » sous peine de rester bloqué à l’étape suivante…
La première étape avant de se lancer dans un processus d’industrialisation consiste pour le data scientist à établir une problématique de travail précise. Commencer un projet en ayant une direction précise est la condition sine qua non pour le réussir. Le mieux pour cela est de passer par une phase de PoC (Proof Of Concept) et/ou de « prototypage » (les 2 phases peuvent être mêlées).
Le PoC vise à étudier la faisabilité du projet avant de passer à l’action. Il s’agit de :
· Vérifier qu’il existe des données en nombre suffisant. Il faut être bien sûr qu’elles soient exploitables et récupérables ;
· Vérifier que vous avez les moyens nécessaires pour mener à bien le projet : moyens matériels (budget) comme humains (data scientist sous la main) ;
· Définir des cas d’usages concrets : quels sont les résultats espérés ?
L’important dans cette phase est de savoir s’arrêter. La raison d’être de cette phase est de tester la faisabilité du projet… Mais, il faut savoir dépasser ce stade du PoC des tests pour confronter son projet au réel.
Environ 20 à 30 % des projets menés dans les entreprises sont encore bloqués dans cette phase préalable et ne parviennent pas à arriver jusqu’à l’étape de l’industrialisation.
Préparer les données
1. La récupération des données
Évidemment, pas de données, pas d’analyse.
On estime que 90 % des données mondiales ont été créées ces 2 dernières années !
La récupération des données est donc capitale mais elle soulève un enjeu : il faut les récupérer de façon éthique et s’assurer de respecter le cadre réglementaire (notamment la protection des données personnelles).
Autre problème lié à la récupération des données, même si les données existent, elles sont parfois difficilement accessibles. Il faut donc se montrer imaginatif et créatif pour récupérer les données.
Évidemment, plus on a de données, mieux c’est. Images, textes, base de données… Il faut récupérer tout ce qui touche de près ou de loin au phénomène qui nous intéresse.
2. Le nettoyage et l’exploration des données
Une fois les données récupérées, il faut s’atteler au nettoyage des données. C’est la majorité du travail d’un data scientist : on estime que le nettoyage des données leur prend entre 50 à 80 % de leur temps !
Travail ingrat sans aucun doute mais capital : il faut partir sur de bonnes bases si on veut avoir des résultats probants.
C’est le moment de faire un grand nettoyage de printemps dans vos données. Et notamment de faire la chasse aux :
· Données manquantes ;
· Données obsolètes ;
· Données erronées ;
· Données incohérentes ;
· Données en double…
Ce travail permet de trier les données pour ne conserver que celles qui sont intéressantes pour notre problématique.
Par exemple, éliminer les corrélations absurdes (l’influence de la météo sur le développement du diabète). C’est un travail d’exploration des données essentiel pour mieux les comprendre et les faire parler. Elle aboutit sur la formulation des hypothèses préalables à la modélisation.
Il faudra ensuite souvent rassembler les données dans un « data lake » c’est-à-dire un endroit où elles seront toutes réunies et facilement accessibles.
Créer un modèle statistique
1. La modélisation grâce au machine learning
La phase de création du modèle statistique vise à trouver comment établir des parallèles, des relations entre les données : autrement dit, une fois que vous avez vos données prêtes, comment les faire parler ?
Pour cela, on recourt au machine learning, c’est-à-dire à une manière de modéliser des phénomènes en utilisant les possibilités offertes par la technologie pour y trouver un sens.
Il existe 2 grandes distinctions (et beaucoup d’autres plus fines !) pour bien comprendre les types d’apprentissages propres au machine learning :
· Apprentissage supervisé : si l’apprentissage est supervisé, les données sont déjà annotées. À partir de là, vous cherchez en général à faire de la prédiction sur des données non annotées ;
· Apprentissage non supervisé : dans le cas d’un apprentissage non supervisé, les données ne sont pas annotées : l’algorithme regroupe lui-même les images par similitudes et différences. C’est utile pour identifier des relations.
Avant tout, il faut choisir un algorithme d’apprentissage pour entraîner la machine sur une base de données d’entraînement. Le data scientist doit choisir le ou les bons algorithmes parmi l’étendue de ceux à sa disposition.
Le choix de l’algorithme se fait selon vos besoins. Aujourd’hui, de nombreux algorithmes peuvent être utilisés en machine learning : la régression linéaire, le SVM (Support Vector Machine), la méthode des k plus proches voisins, l’arbre de décision, les réseaux de neurones, etc.
2. L’évaluation du modèle, son déploiement et la mise en production
L’évaluation du modèle
La phase suivante est de vérifier que la machine apprend correctement à partir des données d’entraînement qu’on lui a donné. Pour cela, il faut mettre en place une série de tests et appliquer un processus d’essai et d’erreur.
Ce n’est qu’une fois que l’on est sûr que la machine apprend correctement que l’on va pouvoir lui donner de nouvelles données à traiter. Tout en continuant bien sûr à la tester de façon régulière !
On pourra ensuite utiliser l’algorithme pour qu’il accomplisse une tâche définie : recommandation, identification, prédiction…
Le déploiement et la mise en production
Une fois le modèle finalisé, il faut encore le déployer sur des outils solides pour qu’il soit utilisable au quotidien.
C’est une phase extrêmement délicate encore aujourd’hui puisque, comme on l’a vu, nombre de modèles restent au stade du PoC et ne sont jamais industrialisés.
Dans cette phase, comme tout au long du projet, les capacités de pédagogie du data scientist sont capitales pour faire comprendre son projet et le concrétiser auprès du représentant métier qui va l’utiliser.
Et après la mise en production ?
Après la mise en production, rien n’est encore terminé. Il faut suivre le modèle et son évolution dans le temps.
Pour cela, il faut effectuer des tests encore et toujours mais aussi récolter du feed-back des utilisateurs, etc. L’essentiel est de continuer sans relâche à peaufiner le modèle et à l’enrichir pour le rendre de plus en plus performant. La régularité est capitale pour appréhender des phénomènes qui évoluent rapidement.
L’industrialisation de la data science est faite d’allers-retours et d’un cheminement plutôt sinueux. De la préparation des données à la mise en production, il y a un monde ! Pour autant, arriver jusqu’à cette phase de mise en production est fondamental pour tirer le maximum du potentiel d’un projet de data science.
La Ryax Team.