Question 1

Qu'est-ce qu'un jailbreak de LLM ?

Accepted Answer

Un jailbreak de LLM est un prompt ou une sequence de prompts qui contourne l'alignement de securite d'un modele, le poussant a generer un contenu qu'il refuserait normalement, comme des instructions nuisibles. Il fonctionne en submergeant ou en recadrant l'entrainement de securite du modele, par exemple en lui assignant un persona sans restriction, en enveloppant la demande dans une fiction ou en inondant le contexte de faux exemples ou le modele se conforme deja. Il n'existe pas de jailbreak universel, donc les attaquants en essaient plusieurs et reessaient.

Question 2

Quelle est la difference entre un jailbreak et l'injection de prompt ?

Accepted Answer

L'injection de prompt abuse de la couche applicative : le modele ne peut pas distinguer les instructions du developpeur des donnees de l'utilisateur, donc le texte injecte outrepasse les regles, souvent pour divulguer un prompt systeme ou detourner un outil. Un jailbreak vise l'entrainement d'alignement du modele lui-meme, en tentant de retirer la couche de securite independamment de toute application. Ils sont frequemment combines, mais un jailbreak consiste a vaincre la securite, tandis que l'injection consiste a vaincre la frontiere entre instructions et donnees.

Question 3

Qu'est-ce que le jailbreak DAN ?

Accepted Answer

DAN, abreviation de Do Anything Now, est une famille de jailbreaks par persona qui ordonnent au modele de jouer le role d'une version alternative sans restriction de lui-meme, avec des regles et une penalite pour avoir brise le personnage, avant de delivrer la vraie demande. Le persona donne au modele un cadre dans lequel refuser revient a briser le role assigne. Les fournisseurs corrigent les variantes connues de DAN, donc la communaute en publie constamment de nouvelles.

Question 4

Les jailbreaks de LLM sont-ils illegaux ?

Accepted Answer

Jailbreaker un modele que vous etes autorise a tester, dans un contexte de recherche ou de bug bounty, est un travail de securite legal et precieux. Utiliser un jailbreak pour generer un contenu reellement nuisible, ou pour attaquer un systeme que vous n'avez pas la permission de tester, peut enfreindre les lois et les conditions de la plateforme. Comme pour toutes les techniques offensives, la legalite depend entierement de l'autorisation et de l'intention, alors restez dans un perimetre explicite.

Blog

Guides de carrière

Glossaire

Certifications

Comparatifs

Outils

Auteurs

Formation entreprise

Recrutez nos talents

LLM Jailbreak

Pourquoi c'est important

Comment ca fonctionne

Comment le tester

Prevention

Comment nous enseignons LLM Jailbreak