Qu’est-ce que le MLOps?

Le MLOps est une adaptation des pratiques Agiles à l’univers de la donnée sur le chemin de la production. Il s’agit donc d’une initiative de plus autour de l’enjeu de la donnée. Le MLOps commence là où s’arrête le Proof Of Concept. Le but est d’améliorer le cycle de vie des projets liés à la datascience. Voici ce qu’est le MLOps.

Des projets réalisés plus rapidement

Le MLOps est une pratique de collaboration et de communication entre les data scientists et les membres de l’entreprise affectés aux opérations pour gérer le cycle de vie de la production ML. Cette pratique vise à augmenter l’automatisation tout en améliorant la qualité du ML de production. Tout au long du processus, il faut tenir compte des exigences commerciales et réglementaires.

Les MLOps étaient d’abord uniquement un ensemble de bonnes pratiques. Elles ont évolué vers une approche indépendante de la gestion du cycle de vie du ML. Le MLOps s’applique à l’ensemble du cycle de vie et aux mesures métier.

Le MLOps est de plus en plus nécessaire dans le domaine de la datascience ainsi que dans l’analyse des données. Les projets sont réalisés plus rapidement et de manière plus complète. Les projets orientés sont donc effectués avec un plus haut niveau de service. L’adoption du MLOps représente un changement important dans la pratique auquel il faut s’adapter. La pratique implique l’adoption de la culture de l’amélioration continue.

L’intelligence artificielle est de plus en plus souvent introduite dans la boucle par les entreprises. Il est cependant important de disposer d’une bonne expertise. Il est difficile de pouvoir compter sur une bonne architecture organisationnelle. Il faut trouver les bonnes personnes pour former l’équipe qui saura utiliser la technologie. Le défi est de combiner ces éléments pour optimiser le flux de travail.

Le changement de mentalité est important puisqu’il se situe dans la lignée de l’utilisation des nouvelles technologies et sur la contribution du data scientist et du data engineer. La production et le métier doivent aussi être sollicités, ce qui demande un accord entre toutes les parties impliquées.

Plusieurs pratiques liées au DevOps sont présentes dans le MLOps, surtout en qui concerne l’automatisation, les tests unitaires et la gestion de version. Le monitoring et la scabilité des services sont aussi des aspects apparentés au MLOps. Certains aspects sont par ailleurs liés à la datascience, comme la reproductibilité et le monitoring des performances du modèle. La mise à disposition de modèles fait aussi partie de la datascience.

Le maintien du modèle prédictif

Une fois que le modèle prédictif est mis en œuvre, il est essentiel de le maintenir et de résoudre les défauts et les pannes. L’équipe de production seule ne peut arriver à prédire les moments où des réparations seront rendues nécessaires. L’organisation de l’entreprise doit être distribuée en fonction des nouveaux enjeux. Il est essentiel de mettre en place une gouvernance autour des projets afin de bien distribuer les responsabilités.

Les acteurs concernés doivent être placés dans la boucle dès le commencement du projet. Le data scientist doit pouvoir trouver rapidement la donnée nécessaire à son projet. Il doit pouvoir l’examiner. Il doit aussi identifier ce qu’il peut utiliser ou non. Une fois qu’un haut niveau de service est atteint, il faut trouver de plus en plus de cas d’usage. C’est ensuite le moment de procéder à l’adoption pour les acteurs liés au projet.

L’implication des équipes

L’implication de plusieurs équipes est nécessaire en MLOps. La difficulté est de mettre en relation des équipes qui n’ont pas l’habitude de travailler ensemble. Des méthodes de travail dédiées doivent être créées.

Le machine learning exige une supervision pointue. Plusieurs éléments doivent être contrôlés. Il est notamment nécessaire de superviser l’état du système. Il s’agit de surveiller le niveau de charge et la disponibilité du système. Les données entrantes doivent aussi faire l’objet d’une attention particulière. Leur cohérence dans le temps doit être assurée. Les superviseurs doivent tenir compte du fait que la mise à jour influence la manière dont la donnée est récupérée.

Si une donnée change, la prédiction ne pourra plus être la même. Les résultats peuvent alors être différents de ceux qui ont été obtenus lors des tests. Les prédictions peuvent aussi influencer les données récupérées. La supervision est alors nécessaire pour éviter qu’une série d’erreurs soit déclenchée.

Une production à grande échelle

La vitesse obtenue grâce au MLOps permet d’organiser une production à grande échelle. Les étapes s’apparentent au développement de logiciels. L’exécution de modèles ML est très semblable. C’est pourquoi on parle de MLOps, soit ML + Ops. Il s’agit donc de la fusion des processus d’apprentissage automatique avec le flux de travail DevOps.

L’action répétée du ML implique les mêmes éléments que le développement de logiciel. Le MLOps se caractérise par toutes les étapes de déploiement ML. Le MLOps peut subir toutes les itérations nécessaires. Tests et erreurs peuvent être recommencés jusqu’à la découverte du bon ensemble de paramètres. Il deviendra alors possible d’obtenir des modèles reproductibles. Dans le DevOps, il y aurait des configurations préétablies fiables.

Il est aussi important de noter que la mise à jour des données provoque des modifications dans la performance. Lorsque le modèle change, le pipeline change aussi. Le modèle généré doit être suivi afin de retracer l’origine d’un éventuel problème au cas où il se produirait. Avec le MLOps, avant de lancer une construction, il est nécessaire qu’un certain nombre d’étapes soient automatisées.

Dans ce domaine, il est aussi important que les membres de l’équipe proviennent de divers horizons. Plusieurs métiers peuvent être intégrés à l’équipe. Il est fréquent que l’on fasse appel à des hommes d’affaires et à des ingénieurs en logiciels pour faire partie de l’équipe de développement.

La mise en œuvre du MLOps

La mise en œuvre des MLOps ne peut pas être effectuée à la légère. Les enjeux sont majeurs. Une connaissance approfondie des objectifs de l’entreprise est nécessaire pour identifier en quoi le MLOps est pertinent. La composition de l’équipe est importante ainsi que l’architecture organisationnelle. L’équipe des scientifiques des données et l’équipe informatique doivent apporter leur contribution.

Plusieurs technologies sont utilisées dans les MLOps. Mentionnons le test des Elk, Kubernetes, Docker, et Rancher. Le test Elk est surtout utilisé pour déterminer dans quelle mesure un véhicule échappe à un obstacle qui surgit soudainement. Quant à Kubernetes, il s’agit d’un système open source visant à fournir une plate-forme qui favorise la mise en œuvre de conteneurs d’application sur des clushers de serveurs.

Le flux de travail optimisé passe par le test de gration, la validation du modèle et la formation au modèle, en plus de certains réglages.

Des outils à créer

Plusieurs outils sont développés pour répondre aux nécessités du MLOps. Ces outils sont susceptibles de changer fréquemment étant donné que cet élément est de création récente. Un outil comme Metaflow donne aux data scientists les moyens de faciliter l’intégration d’un cadre de travail tout en continuant à créer des modèles complexes. Il est possible de l’utiliser avec sa bibliothèque de sciences des données. Le langage R est aussi pris en charge.

Cet outil a été développé à l’origine chez Netflix pour répondre aux besoins de ses propres data scientists. Ils en avaient besoin dans leur travail de science des données.

Vous aussi utilisez vos données à leur plein potentiel en faisant appel à Ryax.

La Ryax Team.