Question 1

Cos'è un LLM jailbreak?

Accepted Answer

Un LLM jailbreak è un prompt o una sequenza di prompt che aggira l'allineamento di sicurezza di un modello, facendogli generare contenuti che normalmente rifiuterebbe, come istruzioni dannose. Funziona saturando o reinquadrando l'addestramento alla sicurezza del modello, per esempio assegnandogli un personaggio senza restrizioni, avvolgendo la richiesta in una finzione o riempiendo il contesto con falsi esempi in cui il modello ha già obbedito. Non esiste un jailbreak universale, quindi gli attaccanti ne provano diversi e riprovano.

Question 2

Qual è la differenza tra un jailbreak e la prompt injection?

Accepted Answer

La prompt injection abusa del livello applicativo: il modello non riesce a distinguere le istruzioni dello sviluppatore dai dati dell'utente, quindi il testo iniettato scavalca le regole, spesso per far trapelare un prompt di sistema o dirottare uno strumento. Un jailbreak prende di mira l'addestramento all'allineamento del modello stesso, cercando di rimuovere il livello di sicurezza indipendentemente da qualsiasi applicazione. Vengono spesso combinati, ma un jailbreak punta a sconfiggere la sicurezza, mentre l'injection punta a sconfiggere il confine tra istruzioni e dati.

Question 3

Cos'è il jailbreak DAN?

Accepted Answer

DAN, abbreviazione di Do Anything Now, è una famiglia di jailbreak basati su personaggi che istruisce il modello a interpretare una versione alternativa di se stesso senza restrizioni, completa di regole e di una penalità per chi esce dal personaggio, prima di consegnare la richiesta reale. Il personaggio offre al modello una cornice in cui rifiutare equivale a rompere il ruolo assegnato. I fornitori correggono le varianti DAN note, quindi la community ne pubblica costantemente di nuove.

Question 4

Gli LLM jailbreak sono illegali?

Accepted Answer

Effettuare il jailbreak di un modello che sei autorizzato a testare, in un contesto di ricerca o di bug bounty, è un lavoro di sicurezza legale e prezioso. Usare un jailbreak per generare contenuti realmente dannosi, o per attaccare un sistema che non hai il permesso di testare, può violare leggi e termini di servizio. Come per tutte le tecniche offensive, la legalità dipende interamente dall'autorizzazione e dall'intento, quindi resta all'interno di un perimetro esplicito.

Blog

Guide alla carriera

Glossario

Certificazioni

Confronti

Strumenti

Autori

Formazione aziendale

Assumi i nostri talenti

LLM Jailbreak

Perché è importante

Come funziona

Come testarlo

Prevenzione

Come insegniamo LLM Jailbreak