Apple araştırmacıları, AI tarafından üretilen uygunluk etiketlerinin App Store arama sıralamaları ve uygulama indirmeleri üzerindeki etkisini ölçmek için bir A/B testi gerçekleştirdi. İşte buldukları sonuçlar.

AI tarafından üretilen uygunluk etiketleri, App Store arama dönüşümlerini hafifçe iyileştirdi

"Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments" başlıklı yeni bir çalışmada, bir grup Apple araştırmacısı, LLM'lerin App Store arama sonuçlarını iyileştirmeye yardımcı olup olamayacağını araştırdı. Bu, sıralama sistemini eğitmek için kullanılan uygunluk etiketlerini üretmekle ilgilidir.

Çalışmada belirtildiği gibi, uygunluk, kullanıcıların aradıkları uygulamaları bulmalarına yardımcı olmak için anahtar bir unsurdur. Arama sıralamasına katkıda bulunabilecek birçok sinyal olmasına rağmen, araştırmacılar iki ana sinyale odaklandılar:

  • Davranışsal uygunluk, kullanıcıların sonuçlarla nasıl etkileşimde bulunduğunu yansıtır; örneğin, bir uygulamaya tıklayıp tıklamadıkları veya indirdikleri gibi.
  • Metinsel uygunluk, bir uygulamanın meta verilerinin (ad, açıklama ve anahtar kelimeler gibi) bir kullanıcının arama sorgusuyla ne kadar anlamlı bir şekilde eşleştiğini ölçer.

Çalışmada, araştırmacılar, davranışsal uygunlukla ilgili bol miktarda veri mevcutken (çünkü bu kolayca ölçülebilir), metinsel uygunluk için aynı şeyin geçerli olmadığını belirtiyorlar:

Davranışsal uygunluk etiketleri bol olsa da, insan yargıları tarafından üretilen metinsel uygunluk etiketleri çok daha nadirdir. Bu, temel bir sorun yaratır: yüksek kaliteli metinsel uygunluk etiketleri nadirdir ve üretmesi pahalıdır, bu da ölçeklenebilirlikte bir darboğaz yaratır ve metinsel uygunluk hedefine zayıf bir güç verir.

Bu sorunu aşmak için, araştırmacılar mevcut insan yargıları üzerinde 3 milyar parametreli bir LLM'yi ince ayar yaptılar, böylece bir kullanıcının arama sorgusuna ve uygulamanın meta verilerine dayalı olarak uygulamalara uygunluk etiketleri atamayı öğrenebildi.

Sonrasında, bu modelle milyonlarca yeni uygunluk etiketi ürettiler ve hem orijinal verileri hem de LLM tarafından üretilen etiketleri kullanarak App Store sıralama sistemini yeniden eğittiler.

Bu işlemi tamamladıktan sonra, çevrimdışı bir değerlendirme yaptılar ve ardından canlı App Store trafiği üzerinde dünya çapında bir A/B testi gerçekleştirdiler:

“(…) llm-augmented modeli, bir uygulama indirme ile en az bir arama oturumu oranı olarak tanımlanan birincil ölçütümüz olan dönüşüm oranında istatistiksel olarak anlamlı bir +0.24% artış gösterdi. Bu sayı küçük görünse de, olgun bir endüstriyel sıralayıcı için önemli bir iyileşme olarak kabul edilmektedir. Bu kazanım, vitrinlerin %89'unda gözlemlendi.”

Başka bir deyişle, LLM ile artırılmış model kullanılarak sıralanan arama sonuçlarını gören kullanıcılar, geleneksel sıralama modeliyle sunulan arama sonuçlarını gören kullanıcılara göre %0.24 daha fazla uygulama indirdi.

Ve %0.24'ün çok küçük bir artış olduğu açık olsa da, 2025'te toplam App Store indirmelerinin yaklaşık 38 milyar civarında olacağı tahminleri göz önüne alındığında, bu oldukça hızlı bir şekilde ölçeklenir. Pratikte, bu, App Store aramalarından on milyonlarca ek indirme anlamına gelebilir ki bu da geliştiricilerin kesinlikle takdir edeceği bir durumdur.

Tam çalışmayı okumak için bu bağlantıyı takip edin.

Amazon'daki Aksesuar Fırsatları

  • Logitech MX Master 4
  • AirPods Pro 3
  • AirTag (2. Nesil) – 4 Paket
  • Apple Watch Series 11
  • Kablosuz CarPlay adaptörü