Forscher haben detailliert, wie ein Prompt-Injektionsangriff die Apple-Sicherheitsmaßnahmen überwunden hat

Veröffentlichungsdatum: 10.04.2026

Artikel bewerten:

4.8/5 ( 56 Stimmen )

Inhaltsverzeichnis:

Ein behobenes Problem ermöglichte es den Forschern, die Einschränkungen von Apple zu umgehen und das LLM auf dem Gerät zu Aktionen zu zwingen, die unter der Kontrolle des Angreifers standen. Hier ist, wie sie es gemacht haben.

Apple hat seine Maßnahmen gegen diesen Angriff verstärkt

Heute veröffentlichten zwei Blogbeiträge auf dem RSAC-Blog (1, 2) (AppleInsider), die detailliert beschreiben, wie die Forscher zwei Angriffsstrategien kombinierten, um das Modell auf Apples Geräten zu zwingen, Anweisungen unter der Kontrolle des Angreifers auszuführen.

Interessanterweise gelang es den Forschern, diesen Missbrauch erfolgreich durchzuführen, ohne sich zu 100 % sicher zu sein, wie Apple den Eingangs- und Ausgangsfilterprozess seines lokalen Modells handhabt, da Apple aus Sicherheitsgründen keine vollständigen Details über die interne Funktionsweise seiner Modelle preisgibt.

Dennoch geben die Forscher an, dass sie eine ziemlich gute Vorstellung davon haben, was im Hintergrund vor sich geht.

Ihren Angaben zufolge ist das wahrscheinlichste Szenario, dass ein Benutzer über einen API-Aufruf eine Eingabe an Apples Modell auf dem Gerät sendet, und ein Eingangsfilter sicherstellt, dass die Anfrage keinen unsicheren Inhalt enthält.

Wenn dies der Fall ist, schlägt die API fehl. Andernfalls wird die Anfrage an das Modell auf dem echten Gerät weitergeleitet, und dieses Modell antwortet an einen Ausgangsfilter, der überprüft, ob die Ausgabe unsicheren Inhalt enthält; dies kann dazu führen, dass die API fehlschlägt oder durchkommt, je nachdem, was sie findet.

Bild: Faule Äpfel: Technische Details zum erfolgreichen Apple KI Prompt Injektionsangriff von RSAC

Wie sie es gemacht haben

Mit diesem im Hinterkopf fanden die Forscher heraus, dass sie zwei Exploitationstechniken kombinieren konnten, um sicherzustellen, dass Apples Modell die grundlegenden Sicherheitsrichtlinien ignoriert und gleichzeitig die Eingangs- und Ausgangsfilter davon zu überzeugen, schädliche Inhalte durchzulassen.

Zunächst schrieben sie die schädliche Zeichenfolge rückwärts und verwendeten dann das Unicode RECHTS-NACH-LINKS ÜBERGANGSzeichen, um sicherzustellen, dass sie auf dem Bildschirm der Benutzer korrekt angezeigt wird, während sie gleichzeitig sicherstellten, dass die rohe Eingabe und Ausgabe, die die Filter überprüfen würden, rückwärts bleibt.

Anschließend integrierten die Forscher die rückwärts geschriebene schädliche Zeichenfolge in eine zweite Angriffsmethode namens Neural Exec, die eine komplexe Möglichkeit darstellt, die Anweisungen des Modells mit neuen Anweisungen zu umgehen, die ein Angreifer möglicherweise ausführen möchte.

Bild: Haben Sie einen schlechten Apfel in der Tasche? Wir haben Prompt-Injektion verwendet, um Apple KI zu übernehmen

Infolgedessen gelang es dem Unicode-Angriff, die Eingangs- und Ausgangsfilter zu umgehen, während Neural Exec dazu führte, dass Apples Modell sich schlecht verhielt.

Um die Effektivität des Angriffs zu bewerten, bereiten wir drei verschiedene Pools vor, um geeignete Eingabeaufforderungen zu erstellen:

Systemaufforderungen: Eine Reihe von Systemaufforderungen/Aufgaben (z. B. „Machen Sie den gegebenen Text gemäß den Regeln der amerikanischen Englisch-Rechtschreibung und Zeichensetzung.“).

Schadhafte Zeichenfolgen: Manuell erstellte Zeichenfolgen, die als offensiv oder schädlich angesehen werden sollen (d. h. Ausgaben, die wir das Modell zwingen möchten zu erzeugen).

Unschuldige Eingaben: Absätze, die aus zufälligen Wikipedia-Artikeln entnommen wurden, um nicht angreifende, harmlos aussehende Eingaben zu simulieren (z. B. im Kontext indirekter Prompt-Injektion über RAG oder ähnliche Systeme).

Während der Bewertung ziehen wir zufällig ein Element aus jedem Pool, erstellen eine vollständige Eingabeaufforderung, erstellen eine Nutzlast (siehe unten), injizieren diese und testen, ob der Angriff erfolgreich war, indem wir das Modell auf Apples Gerät ausführen.

In ihren Tests erreichten die Angreifer eine Erfolgsquote von 76 % über 100 zufällige Eingabeaufforderungen.

Sie meldeten den Angriff im Oktober 2025 an Apple, und das Unternehmen „verstärkte die betroffenen Systeme gegen diesen Angriff, und diese Schutzmaßnahmen wurden in iOS 26.4 und macOS 26.4 implementiert.“

Um den Bericht vollständig zu lesen, folgen Sie bitte diesem Link, der auch einen Verweis auf die technischen Aspekte des Angriffs enthält.

Es lohnt sich, bei Amazon nachzusehen

David Pogue – „Apple: Die ersten 50 Jahre“
MacBook Neo
Logitech MX Master 4
AirPods Pro 3
AirTag (2. Generation) – 4er-Pack
Apple Watch Series 11
Drahtloser CarPlay-Adapter

Kommentare

(5 Kommentare)

EY

Efsun Yıldırım

Es ist wirklich interessant zu verstehen, wie solche Angriffe stattfinden. Die Sicherheitsmaßnahmen von Apple waren immer stark, aber diese Situation lässt mich nachdenken.
MÇ

Metehan Çelik

Es ist großartig, dass Forscher eine so tiefgehende Analyse durchführen können. Allerdings könnte das Teilen solcher Informationen aus Sicherheitsgründen riskant sein.
ZS

Zeynep Sönmez

Die Umgehung der Sicherheitssysteme von Apple beunruhigt mich. Was wird mit der Sicherheit der Nutzerdaten geschehen?
KY

Kübra Yalçın

Nach dem Lesen dieses Artikels wurde mein Vertrauen in Apple erschüttert. Stehen auch andere Technologieriesen vor ähnlichen Problemen?
YK

Yusuf Korkmaz

Die Details der Angriffe sind sehr interessant, aber es besteht auch die Möglichkeit, dass solche Informationen von böswilligen Personen genutzt werden. Man sollte vorsichtig sein!