Question 1

Cos'è la indirect prompt injection?

Accepted Answer

La indirect prompt injection nasconde un'istruzione malevola all'interno di un contenuto che un large language model leggerà in seguito, come una pagina web, un PDF, un'email o la recensione di un prodotto. L'attaccante non parla direttamente con il modello. Piazza invece il payload e aspetta che una vittima chieda al modello di riassumere o elaborare quel contenuto, momento in cui il modello esegue l'istruzione nascosta. È ampiamente considerata la forma più pericolosa di prompt injection perché è scalabile e difficile da rilevare.

Question 2

In cosa differisce la indirect prompt injection dalla prompt injection diretta?

Accepted Answer

Nella prompt injection diretta l'attaccante digita il payload direttamente nel modello, quindi deve essere lui a interagirvi. Nella indirect prompt injection il payload risiede in dati esterni che il modello consuma in seguito, così l'attaccante non è mai presente e qualsiasi utente che fornisce quel contenuto al modello diventa la vittima. Questo rende l'injection indiretta scalabile, persistente e molto più difficile da attribuire.

Question 3

Come nascondono gli attaccanti i payload di injection indiretta?

Accepted Answer

I nascondigli comuni includono i commenti HTML, il testo bianco su sfondo bianco, i font di dimensione zero, il testo all'interno di immagini che il modello legge tramite OCR e i caratteri Unicode tag invisibili, noti come ASCII smuggling. L'essere umano vede un documento o una pagina normale mentre il modello legge l'istruzione incorporata. I payload spesso istruiscono il modello a ignorare le regole precedenti, a esfiltrare dati attraverso un'immagine markdown renderizzata o a richiamare uno strumento che la vittima non aveva mai inteso usare.

Question 4

Come ci si difende dalla indirect prompt injection?

Accepted Answer

Tratta tutto il contenuto esterno come non attendibile. Isolalo con delimitazione o datamarking nel prompt di sistema, rimuovi o sanifica il testo nascosto e l'HTML prima che il modello li veda, e disabilita il rendering automatico delle immagini markdown per bloccare l'esfiltrazione silenziosa. Soprattutto, spezza la trifetta letale: se un modello legge contenuti non attendibili, non concedergli anche dati riservati e un canale di comunicazione esterno. Aggiungi il privilegio minimo, il logging e la revisione umana per qualsiasi azione ad alto rischio.

Blog

Guide alla carriera

Glossario

Certificazioni

Confronti

Strumenti

Autori

Formazione aziendale

Assumi i nostri talenti

Indirect Prompt Injection

Perché è importante

Come funziona

Come testarla

Prevenzione

Come insegniamo Indirect Prompt Injection