Quels bénéfices à automatiser vos analyses de données ?

Data science et intelligence artificielle font bon ménage : l’un et l’autre se nourrissent et s’enrichissent mutuellement. Les possibilités d’automatisation des analyses de données ouvrent la porte à des avantages certains pour les data scientists « augmentés » de demain. Alors, quels bénéfices à automatiser vos analyses de données ? Voici pourquoi vous devriez vous y mettre.

 

screen-iphone-table-1300px

L’automatisation des analyses de données : de quoi parle-t-on ?

Avec le développement de l’intelligence artificielle et des technologies, les possibilités d’automatisation deviennent plus étendues.

Tout est-il réellement automatisable ?

 

Déjà, il faut rappeler le processus de travail du data scientist. La gestion d’un projet de data science passe par les étapes chronologiques suivantes :

 

  • La préparation des données : la collecte, le nettoyage et l’exploration des données ;
  • La création d’un modèle : la sélection de l’algorithme, le choix des paramètres, test et évaluation du modèle ;
  • La mise en production, le déploiement et le suivi du modèle.

 

Pour autant, chacune de ces phases de travail n’a pas la même importance. En effet, la phase de préparation des données prend la plupart du temps de travail du data scientist. On estime qu’il y consacre entre 50 et 80 % de son temps ! C’est indispensable pour travailler sur des données « saines ».

 

Néanmoins, ce travail souvent lent et fastidieux pourrait être facilité par l’intervention de la machine. C’est là que l’intelligence artificielle pourrait jouer un rôle facilitateur.

 

Concrètement, toutes les phases ne peuvent pas être automatisées. Certaines s’y prêtent plus que d’autres.

 

Par exemple, difficile d’automatiser le début d’un projet de data science, à savoir la sélection des données pertinentes. C’est à l’homme de trier les bonnes données et de donner une direction à son travail.

 

Autre exemple, le nettoyage des données peut être semi-automatisé, tout dépend de la nature des données de départ. Par exemple, le machine learning peut aider lors de la recherche des données aberrantes ou des anomalies dans un jeu de données. La recherche d’un modèle d’analyse des données se prête également bien à l’automatisation.

Le data scientist n’est pas mort

Il faut se rendre à l’évidence : le data scientist n’est pas interchangeable avec une machine. C’est une utopie de croire qu’il pourra être remplacé par la machine, même à long terme. Son expérience des projets de data science comme son intuition sont irremplaçables pour savoir quoi faire et comment le faire. De la même façon, la complexité et la spécificité des données propres à chaque projet ne pourra jamais rivaliser avec une machine aussi puissante soit-elle ! Chaque projet est unique et le data scientist doit à chaque fois s’adapter au projet.

 

Autre élément important, il ne faut pas oublier que le data scientist est le lien entre tous les acteurs du projet qui permet de coordonner les équipes et de les faire collaborer. Il est celui qui supervise la gestion du projet à toutes ses étapes, comprend les besoins et les demandes du client et sait lui expliquer le projet. Il garde constamment un œil sur l’avancée du projet et peut trouver des solutions en cas de blocage. Il a donc aussi ce rôle de manager qui est capital pour que le projet arrive à son terme. Aucune machine ne pourra s’y substituer en exécutant simplement « mécaniquement » les étapes à suivre.

 

Et c’est d’autant plus vrai que comme nous allons le voir, les techniques d’intelligence artificielle sur lesquelles peuvent s’appuyer les data scientists sont encore assez expérimentales. Vraisemblablement, elles ne constituent pour l’instant que des outils d’assistance du data scientist.

Quels instruments pour automatiser la data science ?

L’automatisation des étapes du « pipeline » d’un projet de data science se base sur les techniques d’auto-ML (automated machine learning). La plupart des solutions d’auto-ML prennent la forme d’API (interfaces de programmation d’application). Ces techniques utilisent principalement 2 grands systèmes : AUTO-SKLEARN et TPOT.

 

Le système d’AUTO-SKLEARN : c’est un des plus complets. Il se base sur des possibilités d’optimisation, dont l’optimisation bayésienne, le méta-apprentissage et la création d’ensembles de modèles. Sa principale critique pour les data-scientists est une relative rigidité du modèle.

 

Le système TPOT (Tree-based Pipeline Optimization Tool) est « votre assistant en data science » comme le présente son fournisseur. C’est un système proposant un nombre de modèles beaucoup plus étendu que le système AUTO-SKLEARN sous forme d’arbres de complexité arbitraire. Il utilise un algorithme génétique. Pour autant, ce modèle reste néanmoins encore expérimental.

men-board-1300px (1)

Les 4 bénéfices à automatiser la data science

Voici les 4 principaux avantages à automatiser la data science.

# 1 Mener des projets en data science plus rapidement

 

C’est sans doute le plus grand atout du recours à l’intelligence artificielle.

 

En déléguant certaines tâches à la machine, le data scientist perd moins de temps à exécuter des tâches chronophages, répétitives et parfois ingrates. Sans perdre en efficacité, bénéficier d’outils d’automatisation permet d’en faire plus en moins de temps ! Par exemple, le data scientist peut essayer plus de choses dans un délai plus court, là où il aurait peut-être reporté certaines idées faute de temps ou simplement perdu du temps à trouver la bonne option manuellement.

 

# 2 Être plus productif

 

Le data scientist gagne donc du temps sur ces tâches peu intéressantes. Ce temps peut être alloué à d’autres activités. Il peut se consacrer à des tâches à plus forte valeur ajoutée sans s’épuiser sur celles de moindre importance.

 

Ces tâches à forte valeur ajoutée sont celles qui nécessitent réellement une emprise humaine de par leur complexité. Elles sont plus valorisantes et plus intéressantes. Par exemple, un data scientist sera toujours nécessaire pour piloter la machine et veiller au bon fonctionnement du projet. Au final, l’automatisation permet une redistribution des tâches entre humain et machine plus efficace.

 

# 3 Obtenir de meilleurs résultats

 

Globalement, avoir accès à des outils utilisant les dernières technologies de l’intelligence artificielle rend plus performant qu’en restant au « tout manuel ». C’est assez évident mais le data scientist secondé ou assisté par la machine devient ce qu’on pourrait appeler un « data scientist augmenté ».

 

En multipliant les possibilités d’interprétation des données, le data scientist en acquiert une connaissance parfaite. Grâce à ce niveau élevé d’information sur la donnée qu’il manipule, il peut ainsi prendre de meilleures décisions et aboutir à des résultats plus éclairés.

 

Il faut aussi souligner que ces outils d’intelligence artificielle réduisent le risque d’erreurs humaines.

 

# 4 Démocratiser la data science

 

Les techniques d’automatisation poursuivent également ce but avoué : démocratiser la data science pour la rendre accessible à des néophytes.

 

En d’autres termes, pour manipuler des algorithmes, on ne devrait plus avoir besoin de connaissances pointues et complexes en statistiques et/ou en programmation informatique. Cela permettrait par exemple de faire face à la pénurie de main-d’œuvre dans le domaine. Pour l’instant, cette idée de démocratisation de la data science tient encore du mythe et on n’en est encore loin !

 

Plus généralement, on peut quand même dire que l’automatisation de la data science permet d’accélérer la mise en place d’une culture de la data science. Elle permet de rendre plus accessibles ces projets parfois vus comme obscurs et laisse la place à l’éventualité de les développer plus facilement dans les entreprises.

 

Si l’automatisation de la data science a encore de beaux jours devant elle, elle restera néanmoins cantonnée à son rôle d’assistance dans l’analyse de données. Complémentaire au data scientist, elle n’a pas vocation à se substituer à lui. C’est notamment vrai car lui seul sait à quel point chaque projet de data science est unique en son genre.

La Ryax Team.