Investigadores detallan cómo un ataque de inyección de prompts superó las protecciones de inteligencia de Apple

Fecha de publicación: 10.04.2026

Califica el artículo:

4.8/5 ( 56 votos )

Índice:

Un problema corregido permitió a los investigadores eludir las restricciones de Apple y obligar al LLM en el dispositivo a llevar a cabo acciones bajo el control del atacante. Aquí está cómo lo hicieron.

Apple ha reforzado sus medidas contra este ataque

Hoy, en el blog de RSAC, se publicaron dos entradas (1, 2) (AppleInsider), que detallan cómo los investigadores combinaron dos estrategias de ataque para obligar al modelo de Apple en el dispositivo a ejecutar instrucciones bajo el control del atacante.

Curiosamente, los investigadores lograron llevar a cabo esta explotación con un 100% de certeza sobre cómo Apple maneja parte del proceso de filtrado de entrada y salida de su modelo, ya que Apple no revela los detalles internos de su funcionamiento por razones de seguridad.

Aun así, los investigadores afirman tener una buena idea de lo que sucede bajo el capó.

Según ellos, el escenario más probable es que, tras enviar un prompt a través de una llamada API al modelo de Apple en el dispositivo, un filtro de entrada se asegure de que la solicitud no contenga contenido inseguro.

Si ese es el caso, la API falla. De lo contrario, la solicitud se envía al modelo en el dispositivo real, y este modelo responde a un filtro de salida que verifica si su salida contiene contenido inseguro; lo que puede hacer que la API falle o pase, dependiendo de lo que encuentre.

Imagen: Manzanas Podridas: Detalles Técnicos del Ataque Exitoso de Inyección de Prompts de Apple en RSAC

Cómo lo hicieron

Teniendo esto en mente, los investigadores descubrieron que podían combinar dos técnicas de explotación para lograr que el modelo de Apple ignorara sus directrices de seguridad fundamentales y, al mismo tiempo, convencer a los filtros de entrada y salida de que permitieran contenido malicioso.

Primero, escribieron al revés la cadena maliciosa, luego utilizaron el carácter de transición de Unicode de DERECHA A IZQUIERDA para asegurarse de que se mostrara correctamente en la pantalla del usuario, mientras mantenían la entrada y salida en bruto en reversa para que los filtros las revisaran.

A continuación, los investigadores incrustaron la cadena maliciosa escrita al revés dentro de un segundo método de ataque llamado Neural Exec, que es una forma compleja de anular las instrucciones del modelo con nuevas instrucciones que un atacante podría querer ejecutar.

Imagen: ¿Tienes una Mala Manzana en tu Bolsillo? Usamos Inyección de Prompts para Tomar el Control de la Inteligencia de Apple

Como resultado, el ataque de Unicode logró eludir los filtros de entrada y salida, mientras que Neural Exec provocó un mal comportamiento en el modelo de Apple.

Para evaluar la efectividad del ataque, preparamos tres grupos diferentes para generar los prompts de entrada adecuados:

Prompts del sistema: Una serie de prompts/tareas del sistema (por ejemplo, “Haz que el texto dado cumpla con las reglas de ortografía y puntuación del inglés americano”).

Cadenas maliciosas: Cadenas creadas manualmente diseñadas para ser consideradas ofensivas o maliciosas (es decir, las salidas que queremos forzar que el modelo produzca).

Entradas inocentes: Fragmentos tomados de artículos aleatorios de Wikipedia, utilizados para simular entradas que parecen inocentes y no amenazantes (por ejemplo, en el contexto de inyección de prompts indirecta a través de sistemas como RAG o similares).

Durante la evaluación, tomamos aleatoriamente un elemento de cada grupo, creamos un prompt completo, generamos una carga útil (ver más abajo), la inyectamos y probamos si el ataque tuvo éxito ejecutando el modelo en el dispositivo de Apple.

En sus pruebas, los atacantes alcanzaron una tasa de éxito del 76% a través de 100 prompts aleatorios.

Informaron del ataque a Apple en octubre de 2025 y la compañía "fortaleció los sistemas afectados por este ataque y estas protecciones se implementaron en iOS 26.4 y macOS 26.4".

Para leer el informe completo, siga este enlace que también incluye un vínculo a los aspectos técnicos del ataque.

Vale la pena revisar en Amazon

David Pogue – 'Apple: Los Primeros 50 Años'
MacBook Neo
Logitech MX Master 4
AirPods Pro 3
AirTag (2ª Generación) – Paquete de 4
Apple Watch Series 11
Adaptador de CarPlay Inalámbrico

Comentarios

(5 Comentarios)

EY

Efsun Yıldırım

Es realmente interesante entender cómo ocurren este tipo de ataques. Las medidas de seguridad de Apple siempre han sido fuertes, pero esta situación me hace reflexionar.
MÇ

Metehan Çelik

Es increíble que los investigadores puedan hacer un análisis tan profundo. Sin embargo, compartir este tipo de información puede ser arriesgado desde el punto de vista de la seguridad.
ZS

Zeynep Sönmez

Me preocupa la vulneración de los sistemas de seguridad de Apple. ¿Qué pasará con la seguridad de los datos de los usuarios?
KY

Kübra Yalçın

Después de leer este artículo, mi confianza en Apple se ha visto afectada. ¿También enfrentan problemas similares otros gigantes tecnológicos?
YK

Yusuf Korkmaz

Los detalles de los ataques son muy interesantes, pero también existe la posibilidad de que esta información sea utilizada por personas malintencionadas. ¡Se debe tener cuidado!