Protection des données et data science

Les données gagnent en importance dans de nombreux domaines. Celles-ci deviennent indispensables pour les stratégies marketing, l’optimisation d’IOT ou encore pour l’usage du machine learning. L’importance des données est telle qu’il devient primordial de les sécuriser afin qu’elles ne tombent pas entre les mains de personnes mal intentionnées. Dans la data science, ou science des données, l’usage des données personnelles devient omniprésent, mais quelles sont les règles européennes permettant d’assurer la protection des données personnelles et comment une entreprise peut mettre en place une telle politique ? Les réponses.

umbrellas-1300px

Qu’est-ce que la protection des données ?

Les données personnelles définissent toutes les informations se rapportant à une personne physique qui peut être identifiée de manière directe ou non. Il peut donc s’agir de votre nom, prénom, de photos, adresse physique ou IP, de votre géolocalisation, de votre adresse mail, de vos profils sur les réseaux sociaux, etc.

Le règlement général sur la protection des données en France et en Europe (RGPD) oblige les entreprises à sécuriser ces données. Les règles sont applicables à partir du moment ou un organisme, une entreprise ou même une personne physique ou morale utilise, conserve et collecte des données personnelles de manière numérique ou physique.

Pour cela, la collecte, la conservation et l’utilisation des données doit se faire selon les conditions suivantes :

  • Information sur les données collectées : l’organisme récoltant ces informations doit informer les usagers de la nature des données collectées ;
  • La collecte des données doit être consentie : les personnes doivent donner leur consentement pour l’utilisation de leurs données personnelles et doivent pouvoir y accéder. Egalement, les données doivent pouvoir être rectifiée par l’usager et celui-ci doit être dans la possibilité de s’opposer à leur utilisation ;
  • La collecte de ces données doit avoir un but précis et justifié : la finalité de l’usage des données doit être déterminée et pertinente. De plus, l’utilisation des données personnelles ne peut pas diverger et doit être limitée au but précédemment défini ;
  • Les données collectées doivent être de qualité : les données doivent être adéquates mais également exactes et tenues à jour ;
  • La conservation de ces données doit être temporaire : les données récoltées ne doivent être conservée que de manière temporaire et l’usager a le droit de demander l’effacement ou le déréférencement de ses données. Par exemple, une personne a le droit de demander à Google de supprimer les résultats de recherche associés à son nom de famille ;
  • Les données doivent être sécurisées : Les données collectées par une entreprise doivent être hautement sécurisées et ne peuvent être divulguées à une tierce personne ou organisme. Si cependant, la sécurité des données est violée et que la divulgation de celles-ci comporte un risque important pour les personnes, le responsable du traitement des données doit avertir les personnes concernées et la CNIL dans les plus brefs délais (72heures).

Vos droits en cas de non-respect de la protection des données 

Si une entreprise ou organisme ne respecte pas la protection de vos données personnelles vous avez la possibilité, selon la RGPD de :

  • Demander réparation du dommage matériel ou moral : en cas de non-respect de la RGPD par une entreprise, toute personne subissant ce dommage peut demander au responsable du traitement des données un dédommagement pour ce préjudice ;
  • Encourir à une action de groupe : en cas de violation de la protection des données, il vous est possible de mandater un organisme ou une association dans la protection des données pour réaliser une réclamation ou faire un recours afin d’obtenir une réparation.

Les obligations des entreprises

Pour être en accord avec le règlement européen général sur la protection des données, toute entreprise doit pouvoir :

  • Respecter les règles de protections des données personnelles et de la vie privée dès la conception du projet, comme inscrit dans la RGPD ;
  • Recenser tous les protocoles réalisés dans le traitement des données. Ceux-ci doivent être inscrits dans un registre prévu à cet usage.
  • Pouvoir justifier que le traitement des données est réalisé dans les règles. Pour cela, les employés peuvent suivre une formation avec certification ou signer des codes de conduite ;
  • Notifier dans les 72h la CNIL et les personnes concernées en cas de violation des données personnelles ;
  • Détenir une étude d’impact sur la vie privée si les traitements réalisés sont à risque ;
  • S’assurer que les usagers sont bien informés des conditions d’utilisation de leurs données personnelles, de la durée de conservation de celles-ci, de leurs droits et des recours disponibles en cas de digression.
fingerprint-1300px

Comment mettre en place une protection des données en data science ?

Pour mettre en place une politique de protection des données dans la data science, plusieurs étapes doivent être respectées.

Répertorier les données

La première étape est de stocker toutes les données dans un référentiel de données appelé Data Lake. Il faut ensuite les mettre en conformité et trier chaque type de donnée pour les envoyer vers le pôle de l’entreprise qui les nécessite, comme le pôle marketing, les ressources humaines, le pôle commercial etc. Il existe des outilsappelés Data Discovery qui permettent de rendre la tâche moins fastidieuse. 

Anonymiser les données

Une fois le Data Lake cartographié, vous pouvez limiter les risques de fuite des données et d’usages illégaux en rendant anonyme ces données. Vous pouvez utiliser un serveur proxy ou encore la technique du hachage. Si votre niveau d’anonymisation est élevé et que celle-ci ne permet pas de remonter jusqu’à l’identité des personnes, vous pouvez écarter l’application du RGPD. Néanmoins, une anonymisation totale implique des analyses très poussées des données, ainsi qu’un tri de celles-ci pour savoir lesquelles sont les plus pertinentes pour les Data Scientists.

Cela nécessite beaucoup de moyens humains et financiers. Vous pouvez cependant réaliser un procédé intermédiaire appelé la pseudonymisation. Celui-ci permet de chiffrer entièrement les données tout en conservant la clé de déchiffrage. Cependant, avec ce procédé vous serez toujours dans les champs d’application de la RGPD.

Définir et appliquer les mesures de sécurité

Pour réaliser un projet de Data science respectant les règles de protection des données, il vous faudra définir une stratégie de sécurisation des données et appliquer les mesures définies à la lettre. Lors d’un projet de grande envergure, des données peuvent être échangées, hébergées et manipulées avec des outils de traitement situés sur le territoire, mais aussi à l’étranger.

A chaque opération, les risques de fuite de données sont présents. Il est donc important de prévoir ces risques avant le début du projet.

Pour cela, vous pouvez écrire chaque étape du traitement des données et les stratégies à élaborer pour le chiffrage, le déchiffrage et la protection des données.

Définir les modalités permettant l’exercice du droit des personnes

Le responsable du traitement des données devra expliciter ses notices d’information en informant les utilisateurs de l’usage de la Data science et en décrivant les droits des personnes ainsi que les recours possibles.

Lorsqu’un utilisateur demande un accès à ses informations, cela se traduit par l’accès aux données qui ont été collectées, mais aussi aux informations calculées après les travaux de data science. La personne aura alors le droit de rectification et d’effacement de ses données brutes, mais aussi de ses données après analyse. Ces droits sont inconditionnels et un utilisateur n’a pas besoin de justifier sa demande pour avoir gain de cause.

Le règlement général sur la protection des données permet d’assurer une certaine sécurité aux utilisateurs. Il existe de nombreux moyens de mettre en place une politique de protection des données au sein d’une entreprise, d’où l’intérêt de faire appel des experts en Data Science comme Ryax, et ainsi ne pas entrer en conflit avec la RGPD.

La Ryax Team.