Étiquetée il y a dix ans comme le job le plus sexy du XXIe siècle, la fonction de data scientist attire. Au-delà de perspectives d’emploi immédiates, les data scientists profitent de salaires élevés et sont fortement courtisés. Les contours de ce métier relativement jeune sont encore flous. Qu’est-ce qui fait un bon data scientist ? Quels langages informatiques faut-il maîtriser ? Quels soft skills recherchent les recruteurs et les entreprises ? Nous récapitulons dans cet article les compétences de base d’un bon data scientist.
Data scientist, un métier d’avenir
La demande en data scientists ne faiblit pas. Elle croit actuellement de près de 40% par an. Le salaire médian d’un data scientist aux États-Unis est de 125 000 dollars annuels et le potentiel de progression est élevé. En France, un data scientist débutant pourra espérer environ 45 000 euros par an.
Avec de telles perspectives, le métier de data scientist attire. Le candidat type est souvent bien formé. Les profils Bac+5 voire Doctorat sont légion au sein des data scientists. La plupart des aspirants suivent également des formations supplémentaires pour se spécialiser dans le domaine. Si les jobs ne manquent pas, la compétition se révèle acharnée lorsqu’on courtise les meilleurs employeurs. Parmi les compétences les plus recherchées, on citera les éléments suivants :
- Statistiques et mathématiques, maîtrise du langage R ;
- Esprit analytique, capacité et volonté de résoudre des problèmes ;
- Maîtrise de Python. D’autres langages informatiques constituent des atouts supplémentaires ;
- Connaissance de solutions de calculs distribués tels Hadoop et Spark ;
- Excellentes capacités de communication et maîtrise d’outils de visualisation de données ;
- Connaissances dans les domaines du Machine Learning et de l’Intelligence Artificielle.
Nous revenons plus en détail sur ces différentes compétences dans les paragraphes suivants. Il faut néanmoins garder à l’esprit que la fonction reste mouvante et parfois difficile à circonscrire. Des efforts considérables ont été faits dans ce sens ces dernières années afin de définir ce qui constitue l’essence d’un data scientist. L’entreprise IBM, consciente du flou ambiant, a longuement travaillé sur un modèle de compétences pour les data scientists. Ce modèle a été validé par le Département du Travail américain.
Selon ce modèle de compétences, le métier de data scientist serait un métier pluridisciplinaire à la croisée de la statistique, la programmation informatique ainsi qu’une expertise propre liée à la visualisation et la solution de problèmes.
Curiosité intellectuelle et volonté de résoudre des problèmes
C’est la fondation même du métier de data scientist.
Le data scientist doit être capable de :
- Identifier et caractériser un problème particulier ;
- Formuler des hypothèses et en appréhender les limites ;
- Déployer une méthode d’analyse et de résolution du problème ; et
- Planifier l’exécution de la solution.
Un esprit analytique s’avère donc indispensable pour remplir à bien sa mission.
Statistiques et mathématiques
Des notions de statistiques se révèlent fondamentales pour comprendre les mécanismes qui régissent les traitements de données. Une solide base mathématique permettra également d’appréhender plus facilement les concepts sous-jacents. Beaucoup de profils de data scientists sont issus de formations mathématique ou statistique.
Langages informatiques du data scientist
Un data scientist doit maîtriser certains outils analytiques de manipulation de données comme R ou encore SAS. Le langage R qui permet de résoudre des problèmes statistiques et mathématiques s’avère rapidement incontournable dans le domaine des data sciences.
Le langage Python est lui aussi indispensable pour les data scientists. Des bases en C++ ou encore Java sont fortement recommandées. En règle générale, la maîtrise de langages informatiques supplémentaires constitue autant d’atouts additionnels.
Enfin, il est difficile de passer à côté de SQL (Structured Query Language) lorsqu’on exerce le métier de data scientist. Ce langage spécifique au traitement de données permettra d’optimiser leur utilisation.
Traitement de données, les frameworks incontournables du data scientist
La plateforme Hadoop reste omniprésente dans le monde de la data. Pour les data scientists, la connaissance parfaite d’Hadoop n’est pas toujours requise mais une certaine familiarité sera indispensable. La maîtrise d’un outil comme Spark constitue bien évidemment un plus. Ces dernières années, la maîtrise d’Apache Spark semble d’ailleurs gagner la préférence parmi les recruteurs. De plus en plus de modèles exigent en effet le traitement de données en temps réel ce qu’Hadoop ne peut exécuter. Dans tous les cas, comprendre ces deux frameworks, leurs usages et leurs différences est impératif.
Capacités de communication et maîtrise d’outils de visualisation de données
Si le data scientist ne parvient pas à transformer ses conclusions en actions concrètes, il a échoué. Une partie fondamentale de sa tâche revient donc à communiquer avec des non spécialistes et convaincre. Il doit pour ce faire savoir faire preuve de leadership.
Dès lors, la maîtrise d’outils de visualisation qui permettent de transformer des données complexes en éléments simples est absolument essentielle.
Machine Learning et Intelligence Artificielle
Des notions dans les domaines du Machine Learning ou de l’Intelligence Artificielle (IA) constituent des aides précieuses. Ce domaine de compétences est de plus en plus valorisé par les entreprises étant donné que ces segments sont en pleine croissance.
Selon le rapport 2020 Dice Tech Job, 68% des offres d’emploi pour les data scientist requièrent actuellement des compétences en machine learning.
Avec la maîtrise de Python, R et Apache Spark, le Machine Learning devient donc l’une des quatre compétences clés du profil de data scientist.
Le data scientist, un surhomme ?
Au vu de cette liste impressionnante de compétences, on peut en effet se demander si le data scientist ne vient pas d’une autre galaxie. Dans les faits, rares seront les data scientists qui possèdent l’ensemble de ses compétences et il vaut parfois mieux se spécialiser dans l’une ou l’autre direction.
Un bon data scientist reste avant tout quelqu’un qui raisonne de manière articulée. Au départ d’un problème, il est capable de visualiser comment atteindre la solution. Les données correspondront à des millions de notes formant une partition et le data scientist saura en tirer l’harmonie adéquate.
Grâce à sa plateforme de traitement de données, Ryax aide les data scientists à mettre leurs modèles en production et atteindre ainsi des résultats concrets. Pour en savoir plus, consultez notre fiche produit ou contactez la Ryax Team.
La Ryax Team.