Apparue dans les années 2000, la data science ou « science des données » est devenue un enjeu d’avenir en raison de l’émergence d’un flot continu de données. Découvrez ce qu’est la data science et les bénéfices qu’elle pourrait apporter dans les entreprises au quotidien.
L’apparition de la data science
Un contexte spécifique : le Big data et l’explosion des données
En réalité, les données existent depuis longtemps déjà. Mais avant, elles étaient présentes en faible quantité et assez limitées dans certains domaines…
Aujourd’hui, on ne peut que se rendre compte que les données ont explosé : nous sommes confrontés à une masse grossissante de données. C’est le fameux « Big data ». On parle de Big data quand 3 éléments coexistent, les « 3 V » : volume, variété, vélocité. À partir de là, on a commencé à devoir faire face à une explosion des données mais aussi à un besoin de trouver un moyen de « rationaliser » ces données : c’est là qu’est apparue la data science.
Si la science des données est apparue, c’est aussi parce que nous avons désormais les moyens de traiter ces données. En clair, l’émergence de la science des données a également été favorisée par le développement des techniques. Les algorithmes étaient jusqu’alors lents et laborieux… Dorénavant, ils sont devenus beaucoup plus accessibles. L’amélioration des machines est devenue palpable : les ordinateurs possèdent une meilleure capacité de traitement, leur puissance de calcul est démultipliée… On est loin derrière les super ordinateurs hyper encombrants des années 1980 !
Aujourd’hui, une puissance bien plus élevée que celle des anciens ordinateurs tient dans votre poche sur un tout petit smartphone… Désormais, la data est partout et facilement accessible à tous !
Et ça commence avec votre smartphone : n’avez-vous pas déjà quantité d’applications qui exploitent vos données ? Application de sport pour calculer les calories perdues, le nombre de pas effectué, votre rythme cardiaque ou bien votre application de streaming musical qui vous recommande des titres en fonction de vos goûts musicaux…
Toutes ces technologies utilisent la donnée brute et la traite déjà rapidement et simplement à l’échelon de tous les utilisateurs. Autrement dit, la data et son analyse s’est réellement répandue.
En résumé, 3 facteurs ont donc favorisé l’émergence de la data science :
- Les possibilités de traitement des données se sont généralisées ;
- La capacité de traitement des ordinateurs s’est améliorée ;
- Les données sont devenues de plus en plus nombreuses.
Une définition de la data science
Il fallait trouver une solution qui permette d’exploiter pleinement ces données et d’en tirer de la valeur pour les entreprises. C’est là qu’est réellement apparue toute l’utilité de la data science.
En France comme en Amérique, la discipline se serait forgée dans les années 1990 avant d’être théorisée et de se répandre dans les années 2000. Mais c’est surtout dans les années 2010 que les premiers data scientists ont commencé à apparaître quand la donnée a commencé à devenir massive et exploitable.
En plein boom, le métier est aujourd’hui très demandé. Le data scientist a pour rôle principal de récupérer des données exploitables pour ensuite créer un modèle statistique que l’entreprise pourra industrialiser.
La data science se retrouve aux carrefours de plusieurs disciplines : elle utilise des méthodes issues des mathématiques et de la statistique classique (corrélations, etc.). Elle prend aussi appui sur les dernières technologies comme le machine learning et l’intelligence artificielle qui permettent d’aller toujours plus loin et plus vite dans l’analyse des données. Également, les data scientists possèdent des compétences pointues en informatique (programmation, langage R et Python le plus souvent). Désormais, la data science peut s’appuyer sur ces outils informatiques et ces technologies nouvelles pour exploiter les données qu’un humain ne pourrait exploiter seul ou qu’une machine n’avait pas la capacité de traiter auparavant.
Pour résumer en une définition ce qu’est la data science : la data science est donc la science qui récupère et traite les données pour en tirer de l’information utilisable par les entreprises.
À quoi sert la data science ? Des possibilités infinies…
Si le domaine de la data science est en pleine expansion, c’est parce que la science des données peut être utilisée dans de nombreux domaines, si ce n’est tous ou presque !
Avant tout, la data science vise à valoriser ce magma de données. Maintenant qu’il est là, il faut le traiter car toute cette masse de données ne sert à rien en tant que masse brute. Quelle est l’utilité de la data science ?
La découverte d'informations
La data science vise à parfaire le niveau de connaissance des entreprises. En mettant à jour des éléments jusqu’alors difficiles à identifier, elle permet de découvrir de nouveaux systèmes.
Par exemple, un des domaines favoris de la data science est le marketing. Grâce aux données déjà présentes dans votre entreprise, vous avez sans doute déjà une connaissance client et vous estimez donc posséder un bon niveau d’information sur vos clients. Mais la data science peut réellement approfondir cette connaissance client avec des modèles plus pertinents. Grâce à un meilleur niveau de connaissance client, vous pouvez les classifier et les catégoriser selon des critères définis. Vous pouvez aussi faire marcher les algorithmes de recommandation et leur offrir une expérience personnalisée.
Autre exemple dans le secteur bancaire, la data science permet d’identifier des événements rares comme les anomalies ou les pannes. C’est utile pour la détection des fraudes.
L'aide à la décision et l'analyse prédictive
La data science permet d’aider les entreprises à prendre des décisions plus informées. C’est le but de tout projet mené en data science : accroître le niveau d’information de l’entreprise pour qu’elle puisse se projeter dans l’avenir plus facilement.
Grâce à ces nouvelles informations, l’entreprise peut tirer toutes les conséquences des données et réaliser des « prédictions ». Attention, la data science n’offre pas la solution à tous les problèmes ! Prédire l’évolution de telle ou telle chose n’est possible que si le projet de data science est orienté vers un but clair et précis.
Un exemple célèbre : la série de Netflix, House of Cards. Sa production a été décidée suite à l’analyse des comportements des utilisateurs sur la plateforme de streaming gratuit : ce qu’ils regardent, ce qu’ils cherchent… Netflix s’est inspiré de leurs goûts pour en tirer la série House of Cards dont on connaît le succès aujourd’hui.
Un exemple en marketing : prédire les ventes d’une nouvelle campagne. Autre exemple, la santé avec la prévision des maladies. La météo est concernée également basiquement mais aussi à plus grande échelle : la data science pourrait permettre une meilleure prévention des pics de pollution ou des catastrophes naturelles.
L'automatisation
On pense par exemple à la voiture autonome qui fonctionne grâce à tous ses capteurs bardés d’intelligence artificielle… Et de données ! Le développement des possibilités d’automatisation devrait permettre une redistribution des tâches humain/machine. L’humain pourra se centrer sur les tâches à forte valeur ajoutée ne pouvant être accomplies que par lui tandis que la machine accomplirait des tâches à faible valeur ajoutée. L’avantage est le gain de temps certain que les entreprises pourraient en retirer sur certaines tâches chronophages. Autre exemple d’automatisation : la traduction automatique et simultanée.
Avec l’augmentation continue des données, le domaine de la data science gagne de plus en plus de terrain. Les entreprises ont tout intérêt à exploiter la richesse contenue dans leurs données. Et c’est pourquoi cette discipline émergente sera sans aucun doute cruciale pour les années à venir.
La Ryax Team.