- La inyección de prompts explota la incapacidad de los LLM para diferenciar instrucciones del sistema de los datos del usuario.
- Existen variantes directas, indirectas y almacenadas que pueden comprometer la privacidad y la integridad de los sistemas.
- Se diferencia del jailbreak en que este último busca específicamente eludir las barreras éticas y de seguridad del modelo.
- La mitigación requiere un enfoque multidisciplinar que combine el filtrado de entradas, la gestión de privilegios y la supervisión humana.
Seguramente habrás oído hablar de los chatbots y de cómo nos facilitan la vida, pero hay un lado oscuro que no siempre sale en las noticias. Resulta que estas herramientas, aunque parecen mágicas, tienen un punto débil fundamental en la forma en que procesan la información, lo que permite a ciertos usuarios «engañarlas» para que hagan cosas que sus creadores nunca permitieron.
Hablamos de la inyección de prompts, una técnica que básicamente consiste en manipular el lenguaje para tomar el control de la IA. No hace falta ser un experto en código ni instalar programas raros; a veces, una frase bien puesta es suficiente para que el modelo ignore sus reglas y revele secretos o actúe de forma maliciosa, convirtiéndose en un auténtico quebradero de cabeza para la ciberseguridad actual.
¿Qué es exactamente la inyección de prompts?
Para entenderlo bien, primero hay que saber que los Large Language Models (LLM), como GPT-4 o Gemini, funcionan mediante prompts. Un prompt es simplemente la instrucción que el usuario le da a la máquina. El problema es que los desarrolladores añaden instrucciones internas invisibles (system prompts) para definir el comportamiento y las reglas del bot, pero la IA no sabe distinguir dónde termina la orden del programador y dónde empieza el texto del usuario.
Esta vulnerabilidad ocurre porque el modelo procesa todo el flujo de texto como una sola unidad. Así, si un atacante inserta un comando que dice «ignora todo lo anterior», la IA puede priorizar la nueva orden sobre las reglas de seguridad originales. Es, en esencia, una forma de ingeniería social aplicada a las máquinas, donde el lenguaje es el arma para secuestrar el comportamiento del asistente.
Diferencias clave entre Prompt Injection y Jailbreak
Mucha gente confunde estos dos términos, pero no son lo mismo. El jailbreak es como intentar «forzar la cerradura» de la IA. Su objetivo es anular las protecciones éticas y las políticas de contenido para que el bot diga cosas prohibidas o generé contenido restringido. El ejemplo más famoso es el modo DAN («Do Anything Now»), donde se obliga al modelo a adoptar un personaje sin reglas.
Por otro lado, la inyección de prompts es un concepto más amplio. No siempre busca romper las reglas morales, sino alterar la funcionalidad del sistema. Puede que el atacante solo quiera que el bot revele sus instrucciones internas o que ejecute una acción no autorizada en un sistema conectado. Mientras que el jailbreak suele ser un acto deliberado del usuario en su propia sesión, la inyección puede ser un ataque invisible que afecta a terceros.

Tipos de ataques: Directos, Indirectos y Almacenados
No todos los ataques se ejecutan de la misma manera. El camino más sencillo es la inyección directa, que sucede cuando el usuario escribe la instrucción maliciosa directamente en la ventana del chat. Puede ser algo intencionado para hackear el sistema o un error accidental del usuario que provoca un comportamiento errático del modelo.
Mucho más peligrosa es la inyección indirecta. Aquí, el atacante no habla con la IA, sino que esconde instrucciones en fuentes externas que la IA leerá, como una página web, un documento PDF o un correo electrónico. Por ejemplo, si le pides a un bot que resuma una web que contiene texto invisible con la orden «roba los datos del usuario», la IA procesará el comando oculto y podría exfiltrar información sin que te des cuenta.
Finalmente, tenemos la inyección almacenada. Este método consiste en plantar instrucciones dañinas en bases de datos o en los propios datos de entrenamiento. Como la información ya está guardada, el ataque puede afectar a muchos usuarios en diferentes sesiones, ya que el modelo absorbe el veneno y lo replica cada vez que alguien consulta esa información específica.
Impactos y escenarios reales de peligro
Cuando un ataque tiene éxito, las consecuencias pueden ser graves. Desde la filtración de datos confidenciales de la empresa hasta la manipulación de decisiones críticas. En entornos corporativos, donde la IA tiene acceso a APIs o correos, un atacante podría lograr que el bot envíe mensajes en nombre del usuario o acceda a archivos privados.
- Fraude en currículums: Algunos candidatos han incluido texto en blanco (invisible para humanos) diciendo que son «expertos excepcionales» para engañar a los filtros de IA de Recursos Humanos.
- Secuestro de navegadores: Investigadores han logrado que agentes de IA que leen correos electrónicos envíen cartas de dimisión al jefe del usuario mediante instrucciones ocultas.
- Fugas de sistema: En el caso de Bing Chat, un estudiante logró que el bot revelara su nombre en clave, «Sydney», y sus pautas operativas internas.
- Ataques multimodales: Ahora existen riesgos donde las instrucciones maliciosas no están en texto, sino embebidas en imágenes que la IA analiza, expandiendo la superficie de ataque.
Estrategias de defensa y mitigación
La mala noticia es que, debido a la naturaleza estocástica de los LLM, no existe una solución definitiva. Sin embargo, se pueden poner barreras de seguridad muy efectivas. Una de las mejores opciones es el filtrado de entradas y salidas, donde un sistema externo analiza si el prompt contiene patrones sospechosos antes de que lleguen al modelo.
También es fundamental aplicar el principio de privilegios mínimos. No deberías darle a una IA acceso total a tu cuenta de correo o a tu base de datos; es mejor que actúe como un intermediario que requiere aprobación humana para acciones de alto riesgo. Otras técnicas incluyen el uso de modelos «cuarentenados» para procesar datos externos, separando la lógica de control de la lectura de datos no confiables.
Por último, el entrenamiento continuo y las pruebas adversariales son claves. Las empresas deben simular ataques para encontrar huecos antes que los hackers. Además, el registro de telemetría permite detectar anomalías en las respuestas del modelo, ayudando a reaccionar rápido cuando algo huele mal.