Question 1

Was ist indirekte Prompt Injection?

Accepted Answer

Indirekte Prompt Injection verbirgt eine bösartige Anweisung in Inhalten, die ein großes Sprachmodell später liest, etwa einer Webseite, einem PDF, einer E-Mail oder einer Produktrezension. Der Angreifer spricht nicht direkt mit dem Modell. Stattdessen platziert er den Payload und wartet, bis ein Opfer das Modell bittet, diesen Inhalt zusammenzufassen oder zu verarbeiten, woraufhin das Modell die verborgene Anweisung ausführt. Sie gilt weithin als die gefährlichste Form der Prompt Injection, weil sie skaliert und schwer zu erkennen ist.

Question 2

Wie unterscheidet sich indirekte Prompt Injection von direkter Prompt Injection?

Accepted Answer

Bei der direkten Prompt Injection gibt der Angreifer den Payload direkt in das Modell ein, muss also derjenige sein, der mit ihm interagiert. Bei der indirekten Prompt Injection liegt der Payload in externen Daten, die das Modell später konsumiert, sodass der Angreifer nie im Raum ist und jeder Nutzer, der diesen Inhalt an das Modell weitergibt, zum Opfer wird. Das macht die indirekte Injection skalierbar, persistent und weitaus schwerer zuzuordnen.

Question 3

Wie verbergen Angreifer Payloads für indirekte Injection?

Accepted Answer

Gängige Verstecke sind HTML-Kommentare, weißer Text auf weißem Hintergrund, Schriften mit Größe null, Text in Bildern, den das Modell per OCR liest, und unsichtbare Unicode-Tag-Zeichen, bekannt als ASCII Smuggling. Der Mensch sieht ein normales Dokument oder eine normale Seite, während das Modell die eingebettete Anweisung liest. Payloads weisen das Modell oft an, frühere Regeln zu ignorieren, Daten über ein gerendertes Markdown-Bild zu exfiltrieren oder ein Tool aufzurufen, das das Opfer nie beabsichtigt hat.

Question 4

Wie verteidigt man sich gegen indirekte Prompt Injection?

Accepted Answer

Behandeln Sie alle externen Inhalte als nicht vertrauenswürdig. Isolieren Sie sie mit Trennzeichen oder Datamarking im System-Prompt, entfernen oder bereinigen Sie verborgenen Text und HTML, bevor das Modell sie sieht, und deaktivieren Sie das automatische Rendern von Markdown-Bildern, um stille Exfiltration zu blockieren. Am wichtigsten ist, die tödliche Dreifaltigkeit zu durchbrechen: Wenn ein Modell nicht vertrauenswürdige Inhalte liest, geben Sie ihm nicht zusätzlich private Daten und einen externen Kommunikationskanal. Ergänzen Sie Least Privilege, Logging und menschliche Überprüfung für jede risikoreiche Aktion.

Blog

Karriere-Guides

Glossar

Zertifizierungen

Vergleiche

Tools

Autoren

Unternehmensschulung

Unsere Talente Einstellen

Indirect Prompt Injection

Warum es wichtig ist

Wie es funktioniert

Wie man darauf testet

Prävention

Wie wir Indirect Prompt Injection unterrichten