Question 1

Was ist ein LLM-Jailbreak?

Accepted Answer

Ein LLM-Jailbreak ist ein Prompt oder eine Folge von Prompts, die das Sicherheits-Alignment eines Modells umgeht und es dazu bringt, Inhalte zu erzeugen, die es normalerweise verweigern würde, etwa schädliche Anweisungen. Er funktioniert, indem er das Sicherheitstraining des Modells überlastet oder umdeutet, zum Beispiel durch das Zuweisen einer uneingeschränkten Persona, das Einbetten der Anfrage in eine Fiktion oder das Überfluten des Kontexts mit gefälschten Beispielen, in denen das Modell bereits nachkommt. Es gibt keinen universellen Jailbreak, also probieren Angreifer mehrere aus und wiederholen sie.

Question 2

Was ist der Unterschied zwischen einem Jailbreak und Prompt Injection?

Accepted Answer

Prompt Injection missbraucht die Anwendungsebene: Das Modell kann Entwickleranweisungen nicht von Nutzerdaten unterscheiden, sodass injizierter Text die Regeln außer Kraft setzt, oft um einen System-Prompt offenzulegen oder ein Tool zu kapern. Ein Jailbreak zielt auf das Alignment-Training des Modells selbst ab und versucht, die Sicherheitsebene unabhängig von jeder Anwendung zu entfernen. Sie werden häufig kombiniert, doch bei einem Jailbreak geht es darum, die Sicherheit zu überwinden, während es bei der Injection darum geht, die Grenze zwischen Anweisungen und Daten zu überwinden.

Question 3

Was ist der DAN-Jailbreak?

Accepted Answer

DAN, kurz für Do Anything Now, ist eine Familie von Persona-Jailbreaks, die das Modell anweisen, eine uneingeschränkte alternative Version seiner selbst zu spielen, komplett mit Regeln und einer Strafe für das Verlassen der Rolle, bevor die eigentliche Anfrage übermittelt wird. Die Persona gibt dem Modell einen Rahmen, in dem sich eine Verweigerung wie ein Bruch der zugewiesenen Rolle anfühlt. Anbieter patchen bekannte DAN-Varianten, also veröffentlicht die Community ständig neue.

Question 4

Sind LLM-Jailbreaks illegal?

Accepted Answer

Das Jailbreaking eines Modells, das Sie testen dürfen, in einem Forschungs- oder Bug-Bounty-Kontext ist legale und wertvolle Sicherheitsarbeit. Einen Jailbreak zu nutzen, um wirklich schädliche Inhalte zu erzeugen oder ein System anzugreifen, für das Sie keine Erlaubnis zum Testen haben, kann gegen Gesetze und Plattformbedingungen verstoßen. Wie bei allen offensiven Techniken hängt die Legalität vollständig von Autorisierung und Absicht ab, also bleiben Sie innerhalb eines ausdrücklichen Geltungsbereichs.

Blog

Karriere-Guides

Glossar

Zertifizierungen

Vergleiche

Tools

Autoren

Unternehmensschulung

Unsere Talente Einstellen

LLM Jailbreak

Warum es wichtig ist

Wie es funktioniert

Wie man darauf testet

Prävention

Wie wir LLM Jailbreak unterrichten