Cet article détaille les principaux risques liés à la sécurité du machine learning, brosse un aperçu des techniques couramment répandues pour prévenir ces risques et vous explique l’utilité du machine learning dans la lutte contre le cybercrime.
Le processus de création d'applications de Machine Learning (ML) est un défi pour les experts en cybersécurité. L’intelligence artificielle se révèle en effet vulnérable à tous les stades de son développement.
Eduquer votre machine pourrait vous donner du fil à retordre... Certes, le débat reste entier quant à la possibilité de doter une machine d’un véritable esprit critique et de libre arbitre mais encadrer son apprentissage s'avère crucial. Paradoxalement, le machine learning devient également une arme de taille contre le cybercrime.
Piqure de rappel : qu’est-ce que le Machine Learning ?
Le machine learning est une forme d’intelligence artificielle qui repose sur le principe que la machine apprend par elle-même. Son résultat s’affine au fur et à mesure qu’elle emmagasine des données. L’objectif est que la machine puisse, par la suite, apporter une réponse adaptée à une situation qualifiée de complexe.
Contrairement à l’Intelligence Artificielle (IA), le machine learning n’a pas vocation à développer un raisonnement similaire au raisonnement humain. La machine apprend en traitant des données avec des capacités de calcul informatique importantes.
Pour approfondir le sujet, n’hésitez pas à consulter nos articles :
Machine learning, une cible pour le cybercrime
Les technologies comme l’intelligence artificielle et le machine learning subissent des attaques « classiques » à l'instar de n’importe quel système informatique.
Selon le dernier rapport d’Accenture, « The Cost of Cybercrime », les catégories d’attaques les plus dommageables en termes financiers sont:
- Les attaques causées par des malwares ;
- Les attaques en provenance directe d’internet;
- Les attaques par déni de service.
À côté de ces techniques d’attaques traditionnelles, d’autres types d’attaques visent l’IA et le ML en particulier. Le cabinet de Conseil Wavestone a publié une étude très complète sur le sujet en 2019. Ils classifient les attaques spécifiques au machine learning en trois catégories :
- Empoisonnement: l’empoisonnement survient au moment de la phase d’apprentissage. L’idée est d’intoxiquer la machine avec des données erronées ou biaisées. L’algorithme va donc effectuer des raisonnements et des prédictions sur la base de données altérées ou incomplètes. Imaginez que vous étudiez l’histoire de l’art en analysant uniquement les peintures des maîtres flamands, les chances que vous considériez ensuite un Mondrian comme un chef d’œuvre sont faibles ;
- Inférence: l’inférence vise à récupérer les données emmagasinées par l’IA ou à subtiliser son modèle ou certains de ses paramètres. La technique de l’inférence implique d’envoyer un nombre important de requêtes afin de comprendre le fonctionnement de l’intelligence artificielle et la façon dont elle opère ;
- Évasion : la technique d’évasion constitue le pendant de la phase d’empoisonnement mais intervient au moment où l’application fonctionne déjà. L’idée revient à brouiller les pistes et envoyer de fausses données ou des données parasitées à l’algorithme afin qu’il prenne de mauvaises décisions. En anglais on parle d’« adversarial examples ». Imaginons un algorithme qui identifie des œuvres d’art. Quelques couleurs ou pixels de l’œuvre seraient légèrement modifiés avant que l’image ne soit soumise à l’IA ce qui empêcherait celle-ci de la reconnaitre.
Au-delà de ces trois grandes catégories, on dénombre plusieurs autres types d’attaques, perfectionnés ou non. Il faut retenir que les algorithmes de ML et l’intelligence artificielle en général forment une cible de choix pour les hackers en raison de leur vulnérabilité à différents stades.
Machine learning, une arme contre le cybercrime
Selon Accenture, moins de 40% des entreprises utilisent l’intelligence artificielle et le machine learning dans le cadre de la sécurité informatique. Ce chiffre devrait croitre à l’avenir car l‘usage de ces techniques permet de dégager des économies de coût substantielles et d’augmenter le niveau de protection.
L’une des industries à la pointe dans le domaine est le secteur financier. C’est également l’un des secteurs les plus visés par les attaques. Le machine learning s'utilise notamment pour détecter les fraudes. L’algorithme est entraîné pour identifier des comportements utilisateurs jugés anormaux ou une activité suspecte. L’idée est de définir un comportement type et de signaler les comportements déviants.
Un exemple basique est celui de la détection de connexions en provenance de lieux considérés comme potentiellement suspects.
Malheureusement, les cybercriminels utilisent également l'IA et le ML. Leurs techniques atteignent un niveau de sophistication toujours plus élevé et font appel à des algorithmes puissants et évolutifs pour percer les défenses informatiques. Les techniques d’attaque et de défense se complexifient à un point qu’il devient difficile de garantir l’imperméabilité de n’importe quel système informatique. Ce qui autrefois relevait de la science-fiction, une guerre machine contre machine, fait aujourd’hui partie intégrante de la réalité quotidienne de beaucoup d’entreprises.
Sécuriser le machine learning, par où commencer ?
Vous l’aurez compris, les vulnérabilités sont nombreuses lorsqu’on parle de machine learning. La sécurisation doit s’effectuer sur deux axes :
- Tenir compte de l’ensemble des étapes ou des stades ;
- Tenir compte de la diversité des attaques possibles.
Concernant le deuxième axe, l’Agence européenne pour la Cybersécurité, l’ENISA, a publié à la mi-décembre 2020 un rapport étoffé sur les défis associés à la sécurité du machine learning et de l’intelligence artificielle en général. Ce document, intitulé « AI Cybersecurity Challenges », propose notamment une cartographie détaillée des menaces pouvant se présenter au cours du cycle de vie d’une IA.
Une stratégie de cybersécurité ne s’improvise pas. Garder ses modèles confidentiels constitue une première étape mais ce n’est qu’un début pour garantir l’intégrité de son algorithme de ML. Une des manières les plus courantes d’identifier les faiblesses est de simuler des attaques. Une autre option est de commanditer un audit spécifique.
Toujours est-il que le point de la cybersécurité est trop souvent sous-estimé alors que ces contraintes devraient faire partie de l'équation dès la conception d’un modèle de Machine Learning. Si une validation humaine reste encore la norme pour beaucoup de décisions majeures, n’oublions pas que l’intelligence artificielle va s'émanciper de plus en plus dans les années à venir. Cela commence déjà avec les voitures autonomes et bien d’autres objets du quotidien. Il semblerait peu judicieux d’accorder notre confiance à une machine sujette à toutes sortes de manipulations.
Chez Ryax, nous sommes conscients des défis associés à la sécurisation de l’intelligence artificielle et du machine learning. Nous mettons tout en œuvre pour proposer une plateforme où vos données sont anonymisées et en sûreté. N’hésitez pas à prendre contact avec un de nos spécialistes pour en discuter.
La Ryax Team.