Pourquoi l’observabilité est importante dans l’automatisation de la Data Science

Intelligence artificielle et data science ont toujours entretenu des relations étroites. Si l’une ne va pas sans l’autre, l’automatisation de la data science doit désormais passer par l’étape de l’observabilité. Loin de n’être qu’un buzz word chez les data scientists et responsables IT, automatiser la data science sans la rendre observable sera sans doute un échec… Pourquoi ? Les explications ici.

control-tower-blue-1300px

L’observabilité de la data science : de quoi parle-t-on ?

L’observabilité : un essai de définition

Loin d’être un concept émergent, l’observabilité se développe de plus en plus ces dernières années avec la mise à disposition de nouveaux outils. On trouve dorénavant sur le marché des solutions d’observabilité comme Datadog, Splunk, LightStep, Sumo Logic, Honeycomb, etc.

Pour autant, même si on en entend de plus en plus parler, on ne peut que constater que l’observabilité reste encore un concept obscur aux yeux de certains. Alors, comment peut-on essayer de définir (simplement) ce qu’est l’observabilité ?

Wikipédia nous donne une tentative de définition de ce concept inspirée par l’ingénieur hongrois qui l’a découvert, Rudolf E. Kálmán :

« Observability is a measure of how well the internal states of a system can be inferred from knowledge of its external outputs. »

En d’autres termes, on peut donc définir l’observabilité comme la vision d’ensemble d’un système et de son contexte global induite par la connaissance profonde des états internes de ce système.

L’observabilité s’appuie sur 3 piliers qui sont :
·      La gestion des logs ;
·      Les différentes métriques ;
·      Et la traçabilité.

Les plateformes d’observabilité collectent et rassemblent toutes les données de ces 3 composantes et permettent de les mesurer finement grâce à des indicateurs de performances (KPI).

Pour mieux comprendre ce qu’est l’observabilité, il faut aussi faire la différence avec une notion très proche et qui est souvent confondue avec elle : le monitoring.

Observabilité vs monitoring : quelles différences ?

L’observabilité est parfois décrite comme un « monitoring 2.0 ». Si les deux concepts sont voisins, ils se différencient pourtant. C’est vrai car l’observabilité va beaucoup plus loin que le monitoring.

Qu’est-ce que le monitoring ? Le monitoring délivre toutes sortes de données sur un système et permet d’en identifier les failles grâce à des outils de surveillance. En français, le monitoring peut donc être défini comme un ensemble d’outils de surveillance ou de supervision de la donnée.

La grande différence avec l’observabilité, c’est que l’observabilité permet d’ajouter du contexte aux données. Elle délivre une vue beaucoup plus globale et plus large. L’observabilité permet donc d’avoir plus de recul pour comprendre le comportement du système dans son ensemble.

L’observabilité nous emmène plus loin dans l’identification des failles et la résolution des problèmes que le simple monitoring des données. L’observabilité permet de s’affranchir des contraintes du monitoring traditionnel qui devient désormais trop linéaire et classique pour la complexité des systèmes présents dans les organisations. Ce nouveau concept permet donc de s’adapter beaucoup mieux à la complexité des architectures modernes en donnant de la visibilité sur toutes les infrastructures, micro services et applications qu’utilise l’entreprise…

En clair, si vous faites du monitoring, vous savez si le système marche ou pas. Si vous faites de l’observabilité, vous savez pourquoi le système marche et pourquoi il ne marche pas. Ce sont 2 approches complémentaires. Une autre phrase résume bien la relation monitoring/observabilité : « if you are observable, I can monitor you ».

telescope-1300px

Automatisation de la data science : l’indispensable observabilité

Automatisation de la data science : où en est-on ?

Avec le développement de l’intelligence artificielle, de nouvelles possibilités émergent tous les jours pour confier certaines tâches à la machine. Et en data science, l’automatisation prend de plus en plus d’importance et amène des bénéfices évidents.

Elle permet aux data scientists de se délester des tâches ingrates, laborieuses et fastidieuses inhérentes à leur métier. Par exemple, on considère que les data scientists consacrent 50 à 80 % de leur temps à préparer les données pour les rendre exploitables et pouvoir en extraire des résultats probants. Cette phase pourrait être en partie réalisée par la machine. En plus, l’automatisation permet de réduire le risque d’erreur humaine.

Grâce aux possibilités d’automatisation, les data scientists pourraient gagner du temps pour se consacrer à d’autres tâches à forte valeur ajoutée que seul l’humain peut accomplir. L’automatisation est donc une aide dans le travail du data scientist et une assistance au quotidien qui lui permet d’être plus efficace et d’obtenir de meilleurs résultats.

Pour autant, toutes les étapes d’un projet de data science ne peuvent pas être automatisées et n’ont pas vocation à l’être. Mais c’est un vrai plus dont il serait dommage de se passer quand c’est possible !

Observabilité & automatisation : un duo gagnant

L’observabilité prend toute son importance avec l’automatisation des projets de data science. Plus encore, il faut comprendre que l’observabilité ne va pas sans automatisation. À défaut d’observabilité, l’automatisation de la data science risque d’aller droit dans le mur.

L’observabilité s’appuie sur le développement des possibilités d’automatisation et l’arrivée de nouveaux outils « intelligents » enrichis par les dernières technologies. Par exemple, c’est grâce à la machine qu’un volume de données ingérable par l’humain pourra désormais être traité et analysé rapidement et simplement. À la clé, une meilleure observabilité qui permettra d’observer finement et de façon globale le comportement du système à toutes les étapes d’un projet. N’oublions pas qu’il faut aussi se rendre compte que dans les années à venir, le problème ne sera pas tant de récolter de la donnée que d’être en mesure de traiter cette donnée… Seule l’automatisation pourra permettre de gérer efficacement toutes ces données et d’effectuer des tâches qui sont trop chronophages pour l’homme. Cette redistribution efficiente des tâches sera permise par l’automatisation de l’observabilité. On pourra ainsi automatiser différents process, par exemple l’automatisation de la traçabilité des données.

Les bénéfices de l’observabilité

Finalement, qu’elle soit automatisée ou pas, le but de l’observabilité est toujours d’améliorer le fonctionnement du système et l’expérience client. En rassemblant toutes ces données dans les solutions d’observabilité, on acquiert une plus grande visibilité. Les entreprises peuvent alors avoir de meilleurs « insights ».

L’observabilité est donc un outil indispensable pour les projets de data science. Elle peut faciliter la gestion des projets de data science pour leur permettre d’arriver à leur terme beaucoup plus rapidement et facilement. Ce sera donc une variable sur laquelle compter à l’avenir.

Si on résume, l’observabilité apporte :
·      Plus de rapidité dans les projets de data science ;
·      Des problèmes résolus plus facilement ;
·      De meilleures performances dans la conduite des projets.

En revanche, il existe encore une dernière barrière à franchir en matière d’observabilité. Ainsi, il faut travailler sur un changement de culture au sein des entreprises et dans les équipes. Il va falloir montrer l’intérêt de l’observabilité et les bénéfices à attendre de son intégration dans les process. Ce sera indispensable pour avoir de meilleurs résultats et tirer le maximum des nouveaux outils pour bâtir des stratégies plus efficaces. D’ailleurs, certaines entreprises ont déjà mis en place des équipes « d’ingénieurs observabilité » pour faciliter la transition et généraliser la pratique de l’observabilité.

L’automatisation de la data science, le monitoring et l’observabilité vont donc de pair. Mais surtout, mettre en place cette phase d’observabilité dans ses process pourrait permettre de mieux comprendre les systèmes et donc de mener plus de projets de data science jusqu’au bout.

La Ryax Team.