Question 1

Qu'est-ce que l'injection de prompt indirecte ?

Accepted Answer

L'injection de prompt indirecte cache une instruction malveillante a l'interieur d'un contenu qu'un grand modele de langage lira plus tard, comme une page web, un PDF, un e-mail ou un avis produit. L'attaquant ne parle pas directement au modele. Il plante plutot la charge utile et attend qu'une victime demande au modele de resumer ou de traiter ce contenu, moment ou le modele execute l'instruction cachee. Elle est largement consideree comme la forme la plus dangereuse d'injection de prompt parce qu'elle passe a l'echelle et qu'elle est difficile a detecter.

Question 2

En quoi l'injection de prompt indirecte differe-t-elle de l'injection de prompt directe ?

Accepted Answer

Dans l'injection de prompt directe, l'attaquant tape la charge utile directement dans le modele, il doit donc etre celui qui interagit avec lui. Dans l'injection de prompt indirecte, la charge utile reside dans des donnees externes que le modele consomme plus tard, de sorte que l'attaquant n'est jamais dans la piece et que tout utilisateur qui fournit ce contenu au modele devient la victime. Cela rend l'injection indirecte evolutive, persistante et bien plus difficile a attribuer.

Question 3

Comment les attaquants cachent-ils les charges utiles d'injection indirecte ?

Accepted Answer

Les cachettes courantes incluent les commentaires HTML, le texte blanc sur fond blanc, les polices de taille nulle, le texte a l'interieur d'images que le modele lit via OCR et les caracteres de balise Unicode invisibles connus sous le nom d'ASCII smuggling. L'humain voit un document ou une page normale tandis que le modele lit l'instruction integree. Les charges utiles ordonnent souvent au modele d'ignorer les regles precedentes, d'exfiltrer des donnees via une image markdown rendue ou d'appeler un outil que la victime n'a jamais voulu.

Question 4

Comment se defendre contre l'injection de prompt indirecte ?

Accepted Answer

Traitez tout contenu externe comme non fiable. Isolez-le avec un delimitage ou un datamarking dans le prompt systeme, retirez ou nettoyez le texte cache et le HTML avant que le modele ne les voie, et desactivez le rendu automatique des images markdown pour bloquer l'exfiltration silencieuse. Plus important encore, brisez la triade letale : si un modele lit un contenu non fiable, ne lui donnez pas aussi des donnees privees et un canal de communication externe. Ajoutez le moindre privilege, la journalisation et la revue humaine pour toute action a haut risque.

Blog

Guides de carrière

Glossaire

Certifications

Comparatifs

Outils

Auteurs

Formation entreprise

Recrutez nos talents

Indirect Prompt Injection

Pourquoi c'est important

Comment ca fonctionne

Comment la tester

Prevention

Comment nous enseignons Indirect Prompt Injection