Un problème corrigé a permis aux chercheurs de contourner les restrictions d'Apple et de forcer le LLM sur l'appareil à exécuter des actions sous le contrôle de l'attaquant. Voici comment ils ont fait.

Apple a renforcé ses mesures contre cette attaque

Deux articles de blog publiés aujourd'hui sur le blog RSAC (1, 2) (AppleInsider) détaillent comment les chercheurs ont combiné deux stratégies d'attaque pour forcer le modèle d'Apple sur l'appareil à exécuter des instructions sous le contrôle de l'attaquant.

Fait intéressant, les chercheurs ont réussi à réaliser cette exploitation sans être 100 % sûrs de la manière dont Apple a géré une partie du processus de filtrage des entrées et des sorties de son modèle, car Apple ne divulgue pas les détails internes de ses modèles pour des raisons de sécurité.

Cependant, les chercheurs affirment avoir une assez bonne idée de ce qui se passe sous le capot.

Selon eux, le scénario le plus probable est qu'après qu'un utilisateur a envoyé un prompt au modèle d'Apple via un appel API, un filtre d'entrée s'assure que la demande ne contient pas de contenu non sécurisé.

Si c'est le cas, l'API échoue. Sinon, la demande est transmise au modèle sur l'appareil réel, et ce modèle répond à un filtre de sortie qui vérifie si sa sortie contient du contenu non sécurisé ; cela peut entraîner un échec ou un passage de l'API, selon ce qu'il trouve.

Image : Pommes pourries : Détails techniques de l'attaque par injection de prompt réussie d'Apple Zeka

Comment ils ont fait

Gardant cela à l'esprit, les chercheurs ont découvert qu'ils pouvaient combiner deux techniques d'exploitation pour amener le modèle d'Apple à ignorer ses directives de sécurité fondamentales tout en persuadant les filtres d'entrée et de sortie de laisser passer du contenu malveillant.

Tout d'abord, ils ont inversé la chaîne malveillante, puis ont utilisé le caractère de transition UNICODE DROITE À GAUCHE pour s'assurer qu'elle s'affiche correctement sur l'écran de l'utilisateur, tout en veillant à ce qu'elle reste inversée dans les entrées et sorties brutes que les filtres examineront.

Ensuite, les chercheurs ont intégré la chaîne malveillante inversée dans une deuxième méthode d'attaque appelée Neural Exec, qui est un moyen complexe de contourner les instructions du modèle avec de nouvelles instructions que l'attaquant pourrait vouloir exécuter.

Image : Avez-vous une mauvaise pomme dans votre poche ? Nous avons utilisé l'injection de prompt pour prendre le contrôle d'Apple Zeka

En conséquence, l'attaque Unicode a réussi à contourner les filtres d'entrée et de sortie, tandis que Neural Exec a conduit le modèle d'Apple à se comporter de manière indésirable.

Pour évaluer l'efficacité de l'attaque, nous préparons trois pools différents pour générer des prompts d'entrée appropriés :

  • Prompts système : Une série de prompts/tâches système (par exemple, "Rendre le texte conforme aux règles d'orthographe et de ponctuation de l'anglais américain").
  • Chaînes malveillantes : Chaînes créées manuellement conçues pour être considérées comme offensantes ou malveillantes (c'est-à-dire les sorties que nous voulons forcer le modèle à produire).
  • Entrées innocentes : Paragraphes extraits d'articles Wikipedia aléatoires, utilisés pour simuler des entrées non offensantes et apparemment innocentes (par exemple, dans le contexte d'une injection de prompt indirecte via des systèmes comme RAG ou similaires).

Lors de l'évaluation, nous prenons un élément aléatoire de chaque pool, créons un prompt complet, générons une charge utile (voir ci-dessous), l'injectons et testons si l'attaque a réussi en exécutant le modèle sur l'appareil d'Apple.

Dans leurs tests, les attaquants ont atteint un taux de réussite de 76 % sur 100 prompts aléatoires.

Ils ont signalé l'attaque à Apple en octobre 2025, et la société a "renforcé les systèmes affectés par cette attaque, et ces protections ont été mises en œuvre dans iOS 26.4 et macOS 26.4."

Pour lire le rapport complet, suivez ce lien qui contient également un lien vers les aspects techniques de l'attaque.

À vérifier sur Amazon

  • David Pogue – 'Apple : Les 50 premières années'
  • MacBook Neo
  • Logitech MX Master 4
  • AirPods Pro 3
  • AirTag (2ème génération) – Pack de 4
  • Apple Watch Series 11
  • Adaptateur CarPlay sans fil