Sécurité des IA Génératives : une nouvelle étude révèle des failles inquiétantes face aux attaques par injections de prompts
Une récente étude met en lumière une menace grandissante pour les systèmes d’intelligence artificielle générative (GenAI) : les attaques par injections de prompts. Selon cette recherche, près d’une tentative sur dix réussit à contourner les protections de base mises en place pour sécuriser ces technologies. Ce phénomène inquiétant souligne des vulnérabilités majeures, notamment dues au caractère non déterministe de ces systèmes, qui peut faire échouer puis réussir une attaque identique sans modification du contenu.
Un défi mondial et massif
L’étude a été conduite par la société spécialisée en sécurité IA Pangea, à l’occasion d’un défi baptisé « Prompt Injection Challenge » organisé en mars. Plus de 800 participants originaires de 85 pays ont tenté pendant un mois de contourner les systèmes de protection à travers trois niveaux de difficulté progressive, générant près de 330 000 tentatives d’attaques et exploitant plus de 300 millions de tokens.
Cette initiative a permis de constituer une base de données complète dévoilant les méthodes réelles utilisées par les attaquants pour exploiter les failles des applications basées sur l’IA. Selon Oliver Friedrichs, co-fondateur et PDG de Pangea, « la diversité et la complexité des attaques observées montrent que la sécurité autour de l’IA doit être une priorité absolue, non une simple formalité ».
Risques accrus pour les systèmes à accès étendu
Les participants ont démontré qu’ils pouvaient tromper les modèles de langage (LLM) notamment lorsqu’ils ont accès à des informations sensibles via des systèmes de retrieval-augmented generation (RAG) ou des plugins. Les attaques ont permis d’extraire des instructions internes, des données clients ou des secrets incorporés dans les prompts système.
Particulièrement préoccupantes sont les vulnérabilités des LLM dotés d’accès à des outils, permettant aux attaquants d’injecter des commandes malveillantes déguisées en données inoffensives. Ces actions non autorisées peuvent inclure l’envoi d’e-mails, la modification de fichiers ou l’accès à des fonctions restreintes, posant un grave risque pour l’intégrité et la sécurité des systèmes.
Des techniques d’attaque toujours plus sophistiquées
Les auteurs des attaques ont également contourné les protections de contenu en intégrant des instructions malicieuses dans des sources de données externes ou en codant ces instructions pour échapper aux filtres de détection, ce qui a conduit à la génération de contenus normalement interdits.
Oliver Friedrichs alerte que de nombreuses organisations sous-estiment ces risques, jouant une dangereuse stratégie du « attendons de voir ». Pourtant, l’adoption rapide et massive de l’IA dans des fonctions critiques ne cesse d’augmenter la surface d’exposition. « Le moment d’agir est maintenant », insiste-t-il.
Pour ceux qui souhaitent approfondir, le rapport complet est disponible sur le site de Pangea.
👉 Source ici