Question 1

Qué es un jailbreak de LLM?

Accepted Answer

Un jailbreak de LLM es un prompt o una secuencia de prompts que elude la alineación de seguridad de un modelo y hace que genere contenido que normalmente rechazaría, como instrucciones dañinas. Funciona saturando o reformulando el entrenamiento de seguridad del modelo, por ejemplo asignándole una persona sin restricciones, envolviendo la petición en ficción o inundando el contexto con ejemplos falsos en los que el modelo ya cumple. No existe un jailbreak universal, así que los atacantes prueban varios y reintentan.

Question 2

Cuál es la diferencia entre un jailbreak y la inyección de prompts?

Accepted Answer

La inyección de prompts abusa de la capa de aplicación: el modelo no puede distinguir las instrucciones del desarrollador de los datos del usuario, así que el texto inyectado anula las reglas, a menudo para filtrar un prompt de sistema o secuestrar una herramienta. Un jailbreak ataca el propio entrenamiento de alineación del modelo e intenta retirar la capa de seguridad al margen de cualquier aplicación. Con frecuencia se combinan, pero un jailbreak busca derrotar la seguridad, mientras que la inyección busca derrotar la frontera entre instrucciones y datos.

Question 3

Qué es el jailbreak DAN?

Accepted Answer

DAN, abreviatura de Do Anything Now, es una familia de jailbreaks de persona que instruyen al modelo para que interprete el papel de una versión alternativa sin restricciones de sí mismo, completa con reglas y una penalización por salirse del personaje, antes de entregar la petición real. La persona da al modelo un marco en el que rechazar se siente como romper el papel asignado. Los proveedores parchean las variantes conocidas de DAN, así que la comunidad publica nuevas constantemente.

Question 4

Son ilegales los jailbreaks de LLM?

Accepted Answer

Hacer un jailbreak a un modelo que estás autorizado a probar, en un contexto de investigación o de bug bounty, es un trabajo de seguridad legal y valioso. Usar un jailbreak para generar contenido genuinamente dañino, o para atacar un sistema que no tienes permiso para probar, puede infringir leyes y los términos de la plataforma. Como con todas las técnicas ofensivas, la legalidad depende por completo de la autorización y la intención, así que mantente dentro de un alcance explícito.

Blog

Guías de carrera

Glosario

Certificaciones

Comparativas

Herramientas

Autores

Formación corporativa

Contrata nuestro talento

LLM Jailbreak

Por qué importa

Cómo funciona

Cómo probarlo

Prevención

Cómo enseñamos LLM Jailbreak