Voilà maintenant plus de deux ans que le Règlement Général sur la Protection des Données est entré dans nos vies pour le meilleur et pour le pire. Les citoyens européens ne peuvent que se féliciter de l’existence d’un tel bouclier concernant leurs données personnelles. Pour les entreprises en revanche, assurer la conformité avec le RGPD à l’ère du Big Data peut donner des sueurs froides. Nous vous présentons dans cet article quelques éléments clés relatifs à l’application du RGPD au big data.
RGPD, rappel des principes de base
Le Règlement Général sur la Protection des Données s’applique aux données à caractère personnel telles que mentionnées à l’article 4 du texte. Une donnée à caractère personnel se définit comme toute information relative à une personne physique susceptible d’être identifiée, directement ou indirectement.
La CNIL (Commission Nationale de l’Informatique et des Libertés) identifie cinq principes fondamentaux lorsqu’une entreprise traite des données personnelles :
- le principe de finalité : les données ne peuvent être conservées que dans un but défini et légitime ;
- le principe de proportionnalité et de pertinence : seules des données utiles au vu des buts poursuivis peuvent être gardées ;
- le principe d'une durée de conservation limitée;
- le principe de sécurité et de confidentialité ; et
- le principe de respect du droit des personnes, notamment droit d’accès, de rectification, de suppression, etc.
À l’ère du big data où les données se monnayent comme des pommes au marché et les entreprises ont tendance à stocker des réserves pour l’hiver, on comprend rapidement que les données à caractère personnel peuvent soulever de nombreuses questions. La frontière entre conformité aux normes et illégalité est extrêmement fine et peut susciter le débat.
RGPD et data lakes, comment concilier les deux ?
Les lacs de données ou data lakes connaissent une popularité grandissante. Un data lake représente simplement un lieu où une société entrepose les données brutes, en vrac afin de les conserver pour un usage ultérieur.
En 2020, les entreprises disposent d’une multitude de données mais pas forcément des technologies nécessaires pour les exploiter. On comprend dès lors facilement leur souhait de conserver ces précieuses données de façon à pouvoir en tirer parti par la suite.
Des données brutes de tous genres conservées pour une période indéfinie ? On imagine très rapidement les problèmes potentiels si le data lake vise à emmagasiner des données à caractère personnel.
Afin d’être en conformité avec la loi, les entreprises doivent donc sortir du champ d’application du RGPD. La solution la plus simple revient à s’assurer que les données stockées dans le data lake ne qualifient pas comme « données à caractère personnel ». Il revient donc aux entreprises de rendre les données anonymes.
Comment anonymiser les données ?
La Commission européenne est très stricte concernant la définition de données anonymes. Sur son site internet, elle indique :
« Des données à caractère personnel qui ont été rendues anonymes, chiffrées ou pseudonymisées, mais qui peuvent être utilisées pour identifier à nouveau une personne constituent toujours des données à caractère personnel et sont couvertes par le RGPD. Les données à caractère personnel rendues anonymes de telle manière que la personne ne soit pas ou plus identifiable ne constituent plus des données à caractère personnel. Pour qu’une donnée soit véritablement rendue anonyme, le processus d’anonymisation doit être irréversible. »
Ces explications donnent peu de place à l’interprétation et compliquent considérablement le travail du Chief Data Officer et des responsables des données. Différentes techniques existent pour anonymiser les données. L’entreprise Google par exemple utilise les techniques suivantes :
- Généralisation : cette méthode consiste à rendre une partie des données communes à un ensemble d’individus de manière à ce qu’ils intègrent un groupe et ne soient dès lors plus identifiables. Les attributs du jeu de données sont donc généralisés. Par exemple, au lieu de conserver votre adresse complète, une entreprise conservera uniquement votre code postal ;
- Confidentialité différentielle (plus connu sous le terme anglais, differential privacy) : ce procédé très en vogue revient à brouiller les informations grâce à des éléments qu’on peut appeler bruits statistiques ou éléments de probabilité aléatoire. Certaines données peu pertinentes sont donc altérées ou des données fausses sont intégrées au jeu afin d’empêcher d’établir un lien entre un individu et les données. Ce bruit statistique n’aurait pas d’influence dans le cadre d’un traitement à grande échelle des données. Le message est brouillé mais il reste compréhensible.
Il existe bien évidemment de nombreuses façons d’anonymiser les données que nous n’abordons pas dans le cadre de cet article.
Traitement de données personnelles : principes à respecter
L’anonymisation n’est pas toujours la réponse. Dans certains cas, l’entreprise doit conserver certaines données personnelles. Si c’est le cas, il est possible de respecter le RGPD en gardant à l’esprit certains réflexes :
- Tenter au maximum de limiter la collecte des données aux données pertinentes. Accumuler les données a peu d’intérêt si elles ne sont pas utilisées ou ne présentent pas d’avantage pour l’entreprise. Certes, on peut argumenter qu’elles peuvent servir dans le futur mais il est plus probable qu’elles finissent à la poubelle. Imaginez le nombre de greniers et de caves remplies de choses inutiles qui ne serviront à rien dans 99% des cas et vous aurez compris le principe. Oui, cette vieille chaussette dépareillée pourra un jour être reconvertie en marionnette mais est-ce que cela représente un réel atout ? La fixation de durées de conservation adéquates rentre également dans ce cadre. Rien ne sert de garder des données obsolètes ;
- Assurer un maximum de transparence afin que les individus puissent comprendre l’usage qui est fait de leurs données. Une telle transparence implique un processus continu et permettra également à l’entreprise de continuer à s’interroger sur sa politique en matière de données. Dans la même veine, on ne peut que recommander de mettre en place une politique claire concernant la gestion des plaintes éventuelles;
- Sécuriser les données en tenant compte de leur sensibilité et de la complexité des systèmes en place. La cybersécurité se présente comme un élément pivot dans les années à venir. Au-delà de la perte des données, il existe également un risque réel d’altération ce qui fausserait l’ensemble des indications obtenues grâce aux données.
Autres pistes pour assurer la compatibilité avec le RGPD
Pour assurer la conformité avec le Règlement Général sur la Protection des Données, une entreprise peut choisir de repenser la manière dont elle exploite les données. Envisager de traiter les données en temps réel grâce au stream computing par exemple est une piste intéressante.
Force est de constater qu’en 2020, beaucoup d’entreprises peinent à respecter les réglementations bien que l’intention soit présente dans la majorité des cas. L’environnement devient extrêmement complexe et la nécessité de solutions utilisant l’intelligence artificielle se fait sentir. L’entreprise Gartner estime d’ailleurs que les dépenses axées sur la conformité aux normes en matière de vie privée vont drastiquement augmenter dans les années à venir pour atteindre 8 milliards de dollars.
Ryax propose une plateforme de data engineering sécurisée et fiable qui permet d’appréhender ces défis en toute sérénité. L’usage d’une telle solution permet de simplifier la sécurisation des données et d’harmoniser les politiques à l’échelle de l’entreprise. Pour en savoir plus, contactez-nous ou consultez notre fiche produit.
La Ryax Team.