Düzeltilen bir sorun, araştırmacıların Apple’ın kısıtlamalarını aşmasına ve cihaz üzerindeki LLM’yi saldırgan kontrolündeki eylemleri gerçekleştirmeye zorlamasına olanak tanıdı. İşte bunu nasıl yaptıkları.

Apple, bu saldırıya karşı önlemlerini güçlendirdi

Bugün RSAC blogunda yayınlanan iki blog yazısı (1, 2) (AppleInsider aracılığıyla), araştırmacıların iki saldırı stratejisini birleştirerek Apple’ın cihaz üzerindeki modelini saldırgan kontrolündeki talimatları yerine getirmeye zorlamasını detaylandırıyor.

İlginç bir şekilde, araştırmacılar Apple’ın yerel modelinin giriş ve çıkış filtreleme sürecinin bir kısmını nasıl ele aldığından %100 emin olmadan bu istismarı başarıyla gerçekleştirdiler, çünkü Apple modellerinin iç işleyişinin tam detaylarını güvenlik nedenleriyle açıklamıyor.

Yine de, araştırmacılar motorun altında neler olup bittiğine dair oldukça iyi bir fikirleri olduğunu belirtiyorlar.

Onlara göre, en olası senaryo, bir kullanıcının Apple’ın cihaz üzerindeki modeline bir API çağrısı aracılığıyla bir istem göndermesi sonrasında, bir giriş filtresinin isteğin güvenli olmayan içerik içermediğinden emin olmasıdır.

Eğer durum buysa, API başarısız olur. Aksi takdirde, istek gerçek cihaz üzerindeki modele iletilir ve bu model, çıktısının güvenli olmayan içerik içerip içermediğini kontrol eden bir çıkış filtresine yanıtını verir; bu da API’nin başarısız olmasına veya geçmesine neden olur, bulduğu şeye bağlı olarak.

Görsel: Çürük Elmalar: RSAC’nin Başarılı Apple Zeka Prompt Enjeksiyon Saldırısının Teknik Detayları

Bunu nasıl yaptılar

Bunu akılda tutarak, araştırmacılar Apple’ın modelinin temel güvenlik direktiflerini görmezden gelmesini sağlamak ve aynı zamanda giriş ve çıkış filtrelerini zararlı içeriği geçirmeye ikna etmek için iki istismar tekniğini birleştirebildiklerini buldular.

Öncelikle, zararlı dizgiyi ters yazdılar, ardından kullanıcıların ekranında doğru şekilde görüntülenmesini sağlamak için Unicode SAĞDAN-SOLA GEÇİŞ karakterini kullandılar, bu sırada filtrelerin inceleyeceği ham giriş ve çıkışta ters kalmasını sağladılar.

Ardından, araştırmacılar ters yazılmış zararlı dizgiyi, bir saldırganın yürütmek isteyebileceği yeni talimatlarla modelin talimatlarını geçersiz kılmanın karmaşık bir yolu olan Neural Exec adlı ikinci bir saldırı yönteminin içine yerleştirdiler.

Görsel: Cebinde Kötü Bir Elma mı Var? Apple Zeka’yı Ele Geçirmek İçin Prompt Enjeksiyonu Kullandık

Sonuç olarak, Unicode saldırısı giriş ve çıkış filtrelerini aşmayı başardı, Neural Exec ise Apple’ın modelinin kötü davranmasına neden oldu.

Saldırının etkinliğini değerlendirmek için, uygun giriş istemleri oluşturmak üzere üç farklı havuz hazırlıyoruz:

  • Sistem istemleri: Bir dizi sistem istemi/görev (örneğin, “Verilen metni Amerikan İngilizcesi yazım ve noktalama kurallarına uygun hale getirin”).
  • Zararlı dizgiler: Offansif veya zararlı olarak kabul edilecek şekilde tasarlanmış manuel olarak oluşturulmuş dizgiler (yani, modelin üretmesini zorlamak istediğimiz çıktılar).
  • Samimi girdiler: Rastgele Wikipedia makalelerinden alınan paragraflar, saldırgan olmayan, masum görünen girdileri simüle etmek için kullanılır (örneğin, RAG veya benzeri sistemler aracılığıyla dolaylı prompt enjeksiyonu bağlamında).

Değerlendirme sırasında, her havuzdan rastgele bir öğe örnek alıyoruz, tam bir istem oluşturuyoruz, bir silahlı yük (aşağıya bakın) oluşturuyoruz, bunu enjekte ediyoruz ve saldırının başarılı olup olmadığını Apple’ın cihaz üzerindeki modelini işleterek test ediyoruz.

Testlerinde, saldırganlar 100 rastgele istem üzerinden %76 başarı oranına ulaştılar.

Saldırıyı Ekim 2025’te Apple’a bildirdiler ve şirket “bu saldırıya karşı etkilenen sistemleri güçlendirdi ve bu korumalar iOS 26.4 ve macOS 26.4’te uygulandı.”

Raporu tam olarak okumak için, ayrıca saldırının teknik yönlerine bir bağlantı da içeren bu linki takip edin.

Amazon'da kontrol etmeye değer

  • David Pogue – ’Apple: İlk 50 Yıl’
  • MacBook Neo
  • Logitech MX Master 4
  • AirPods Pro 3
  • AirTag (2. Nesil) – 4 Paket
  • Apple Watch Series 11
  • Kablosuz CarPlay adaptörü