- L'injection prompte exploite l'incapacité des LLM à différencier les instructions système des données utilisateur.
- Il existe des variantes directes, indirectes et stockées qui peuvent compromettre la confidentialité et l'intégrité des systèmes.
- Elle diffère du jailbreak en ce que ce dernier vise spécifiquement à contourner les barrières éthiques et de sécurité du modèle.
- L’atténuation nécessite une approche multidisciplinaire combinant le filtrage des entrées, la gestion des privilèges et la supervision humaine.
Vous avez probablement entendu parler des chatbots et de la façon dont ils nous facilitent la vie, mais il existe un côté sombre qui n'est pas toujours médiatisé. Il s'avère que ces outils, bien qu'ils paraissent magiques, ont un côté sombre. point faible fondamental dans leur manière de traiter l'information, ce qui permet à certains utilisateurs de les « tromper » et de leur faire faire des choses que leurs créateurs n'ont jamais autorisées.
Nous parlons d'injection de prompts, une technique qui consiste essentiellement à manipuler le langage pour prendre le contrôle de l'IA. Nul besoin d'être un expert en programmation ni d'installer de programmes inhabituels ; parfois, une phrase bien placée Cela suffit pour que le modèle ignore ses propres règles et révèle des secrets ou agisse de manière malveillante, devenant ainsi un véritable casse-tête pour la cybersécurité actuelle.
Qu'est-ce que l'injection immédiate exactement ?
Pour bien comprendre cela, il est important de savoir que les grands modèles de langage (LLM), tels que GPT-4 ou Gemini, fonctionnent à l'aide d'invites. Une invite est simplement l'instruction donnée par l'utilisateur à la machine. Le problème est que les développeurs ajoutent… instructions internes invisibles (invites système) pour définir le comportement et les règles du bot, mais l'IA ne peut pas distinguer où se termine la commande du programmeur et où commence le texte de l'utilisateur.
Cette vulnérabilité survient car le modèle traite l'intégralité du flux de texte comme une seule unité. Ainsi, si un attaquant insère une commande du type « ignorer tout ce qui précède », l'IA peut donner la priorité à la nouvelle commande Concernant les règles de sécurité initiales, il s'agit, en substance, d'une forme d'ingénierie sociale appliquée aux machines, où le langage est l'arme permettant de détourner le comportement de l'assistant.
Principales différences entre l'injection rapide et le jailbreak
Beaucoup de gens confondent ces deux termes, mais ils ne sont pas synonymes. Le jailbreak consiste à tenter de « crocheter » l'IA. Son but est annuler les protections éthiques et des politiques de contenu qui empêchent le bot de tenir des propos interdits ou de générer du contenu restreint. L'exemple le plus connu est le mode DAN (« Do Anything Now »), où le modèle est contraint d'adopter un comportement sans règles.
En revanche, l'injection rapide est un concept plus large. Elle ne vise pas toujours à enfreindre les règles morales, mais modifier les fonctionnalités du systèmeL'attaquant peut simplement vouloir que le bot révèle ses instructions internes ou qu'il exécute une action non autorisée sur un système connecté. Alors que le jailbreak est généralement un acte délibéré de l'utilisateur au sein de sa propre session, l'injection peut constituer une attaque invisible affectant des tiers.
Types d'attaques : directes, indirectes et stockées
Toutes les attaques ne sont pas exécutées de la même manière. Le chemin le plus simple est le suivant : injection directeCela se produit lorsque l'utilisateur saisit directement l'instruction malveillante dans la fenêtre de discussion. Il peut s'agir d'une tentative intentionnelle de piratage du système ou d'une erreur accidentelle de l'utilisateur provoquant un comportement erratique du modèle.
Bien plus dangereux est le injection indirecteIci, l'attaquant ne communique pas directement avec l'IA, mais dissimule des instructions dans des sources externes que l'IA lira, comme une page web, un document PDF ou un courriel. Par exemple, si vous demandez à un bot de résumer une page web contenant du texte invisible avec la commande « voler les données utilisateur », l'IA exécutera cette commande. traitera la commande cachée et pourrait exfiltrer des informations sans même que vous vous en rendiez compte.
Enfin, nous avons le injection conservéeCette méthode consiste à insérer des instructions malveillantes dans des bases de données ou directement dans les données d'entraînement. Comme l'information est déjà stockée, l'attaque peut affecter de nombreux utilisateurs lors de différentes sessions, puisque le modèle absorbe le poison et cela se répète à chaque fois que quelqu'un consulte ces informations spécifiques.
Impacts réels et scénarios de risques
Lorsqu'une attaque réussit, les conséquences peuvent être graves. fuite de données confidentielles De l'entreprise à la manipulation de décisions critiques. Dans les environnements professionnels où l'IA a accès aux API ou aux courriels, un attaquant pourrait faire en sorte que le bot envoie des messages au nom de l'utilisateur ou accède à des fichiers privés.
- Fraude au CV : Certains candidats ont inclus du texte vide (invisible pour les humains) indiquant qu'ils étaient des « experts exceptionnels » afin de tromper les filtres d'IA des RH.
- Détournement de navigateur : Les chercheurs ont réussi à Des agents d'IA qui lisent les e-mails Envoyer des lettres de démission au supérieur hiérarchique de l'utilisateur en utilisant des instructions cachées.
- Fuites du système : Dans le cas de Bing Chat, un étudiant a réussi à obtenir du bot qu'il révèle son nom de code, « Sydney », et ses règles de fonctionnement internes.
- Attaques multimodales : Il existe désormais des risques liés à des instructions malveillantes qui ne sont pas écrites, mais images intégrées que l'IA analyse, élargissant ainsi la surface d'attaque.
Stratégies de défense et d'atténuation
La mauvaise nouvelle est que, compte tenu de la nature stochastique des LLM, il n'existe pas de solution définitive. Cependant, certaines mesures peuvent être prises. barrières de sécurité Très efficace. L'une des meilleures options est le filtrage des entrées/sorties, où un système externe analyse si l'invite contient des schémas suspects avant qu'elle n'atteigne le modèle.
Il est également essentiel d'appliquer le principe de privilèges minimauxVous ne devriez pas donner à une IA un accès complet à votre compte de messagerie ou à votre base de données ; il est préférable qu'elle agisse comme un intermédiaire qui exige approbation humaine pour les actions à haut risque. D'autres techniques consistent à utiliser des modèles « mis en quarantaine » pour traiter les données externes, en séparant la logique de contrôle de la lecture des données non fiables.
Enfin, la formation continue et les tests d'attaque sont essentiels. Les entreprises doivent simuler des attaques pour déceler les vulnérabilités avant les pirates informatiques. De plus, journal de télémétrie Il vous permet de détecter les anomalies dans les réponses du modèle, vous aidant ainsi à réagir rapidement lorsque quelque chose vous paraît suspect.

