Question 1

Qué es la inyección de prompts indirecta?

Accepted Answer

La inyección de prompts indirecta oculta una instrucción maliciosa dentro de contenido que un gran modelo de lenguaje leerá más tarde, como una página web, un PDF, un correo o una reseña de producto. El atacante no habla con el modelo directamente. En su lugar planta el payload y espera a que una víctima pida al modelo que resuma o procese ese contenido, momento en el que el modelo ejecuta la instrucción oculta. Se considera ampliamente la forma más peligrosa de inyección de prompts porque escala y es difícil de detectar.

Question 2

En qué se diferencia la inyección de prompts indirecta de la directa?

Accepted Answer

En la inyección de prompts directa el atacante escribe el payload directamente en el modelo, así que debe ser él quien interactúa con él. En la inyección de prompts indirecta el payload vive en datos externos que el modelo consume más tarde, así que el atacante nunca está presente y cualquier usuario que entregue ese contenido al modelo se convierte en la víctima. Esto hace que la inyección indirecta sea escalable, persistente y mucho más difícil de atribuir.

Question 3

Cómo ocultan los atacantes los payloads de inyección indirecta?

Accepted Answer

Los escondites comunes incluyen comentarios HTML, texto blanco sobre fondo blanco, fuentes de tamaño cero, texto dentro de imágenes que el modelo lee mediante OCR, y caracteres de etiqueta Unicode invisibles conocidos como contrabando ASCII. El humano ve un documento o una página normal mientras el modelo lee la instrucción incrustada. Los payloads suelen instruir al modelo para que ignore las reglas previas, exfiltre datos a través de una imagen markdown renderizada o invoque una herramienta que la víctima nunca pretendió usar.

Question 4

Cómo te defiendes de la inyección de prompts indirecta?

Accepted Answer

Trata todo el contenido externo como no confiable. Aíslalo con delimitación o datamarking en el prompt de sistema, elimina o sanea el texto oculto y el HTML antes de que el modelo lo vea, y desactiva el renderizado automático de imágenes markdown para bloquear la exfiltración silenciosa. Lo más importante: rompe la trifecta letal: si un modelo lee contenido no confiable, no le des además datos privados y un canal de comunicación externa. Añade mínimo privilegio, registro y revisión humana para cualquier acción de alto riesgo.

Blog

Guías de carrera

Glosario

Certificaciones

Comparativas

Herramientas

Autores

Formación corporativa

Contrata nuestro talento

Indirect Prompt Injection

Por qué importa

Cómo funciona

Cómo probarlo

Prevención

Cómo enseñamos Indirect Prompt Injection