Apple-Forscher haben einen A/B-Test durchgeführt, um die Auswirkungen von durch KI generierten Relevanzetiketten auf die Suchrankings und App-Downloads im App Store zu messen. Hier sind die Ergebnisse, die sie gefunden haben.
Durch KI generierte Relevanzetiketten haben die Suchkonversionen im App Store leicht verbessert
In einer neuen Studie mit dem Titel "Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments" untersuchte eine Gruppe von Apple-Forschern, ob LLMs dazu beitragen können, die Suchergebnisse im App Store zu verbessern. Dies betrifft die Erstellung von Relevanzetiketten, die zur Schulung des Ranking-Systems verwendet werden.
Wie in der Studie angegeben, ist Relevanz ein Schlüsselmerkmal, um den Nutzern zu helfen, die Apps zu finden, nach denen sie suchen. Obwohl es viele Signale gibt, die zur Suchreihenfolge beitragen können, konzentrierten sich die Forscher auf zwei Hauptsignale:
- Verhaltensrelevanz spiegelt wider, wie Nutzer mit den Ergebnissen interagieren; zum Beispiel, ob sie auf eine App klicken oder sie herunterladen.
- Textuelle Relevanz misst, wie gut die Metadaten einer App (wie Name, Beschreibung und Schlüsselwörter) mit der Suchanfrage eines Nutzers übereinstimmen.
In der Studie stellen die Forscher fest, dass, während es viele Daten zu verhaltensbezogener Relevanz gibt (da diese leicht messbar ist), dies nicht für die textuelle Relevanz gilt:
Obwohl es viele Verhaltensrelevanzetiketten gibt, sind durch menschliche Urteile erzeugte textuelle Relevanzetiketten viel seltener. Dies schafft ein grundlegendes Problem: Hochwertige textuelle Relevanzetiketten sind selten und teuer in der Produktion, was einen Engpass bei der Skalierbarkeit schafft und der textuellen Relevanz schwache Kraft verleiht.
Um dieses Problem zu überwinden, kalibrierten die Forscher ein LLM mit 3 Milliarden Parametern auf bestehenden menschlichen Urteilen, sodass es lernen konnte, Relevanzetiketten für Apps basierend auf der Suchanfrage eines Nutzers und den Metadaten der App zuzuweisen.
Anschließend erzeugten sie mit diesem Modell Millionen neuer Relevanzetiketten und schulten das App Store-Ranking-System sowohl mit den Originaldaten als auch mit den von LLM generierten Etiketten neu.
Nachdem sie diesen Prozess abgeschlossen hatten, führten sie eine Offline-Bewertung durch und führten dann einen weltweiten A/B-Test mit Live-App-Store-Verkehr durch:
„(…) Das
llm-augmentedModell zeigte einen statistisch signifikanten Anstieg von +0,24 % in der Konversionsrate, die unser primäres Maß ist, definiert als die Rate einer App-Download-Anfrage mit mindestens einer Suchsitzung. Obwohl diese Zahl klein erscheint, wird sie als bedeutende Verbesserung für einen etablierten industriellen Rangierer angesehen. Dieser Gewinn wurde in 89 % der Schaufenster beobachtet.“
Anders ausgedrückt, Nutzer, die die durch das LLM verstärkten Suchergebnisse sahen, luden 0,24 % mehr Apps herunter als Nutzer, die die traditionellen Suchergebnisse sahen.
Und obwohl 0,24 % wie eine sehr kleine Steigerung erscheint, könnte dies angesichts der Prognosen, dass die Gesamtzahl der App Store-Downloads im Jahr 2025 bei etwa 38 Milliarden liegen wird, schnell skalieren. Praktisch bedeutet dies, dass dies zu Millionen zusätzlichen Downloads aus App Store-Suchen führen könnte, was für Entwickler sicherlich von Vorteil wäre.
Folgen Sie diesem Link, um die vollständige Studie zu lesen.
Zubehörangebote bei Amazon
- Logitech MX Master 4
- AirPods Pro 3
- AirTag (2. Generation) – 4er Pack
- Apple Watch Series 11
- Drahtloser CarPlay-Adapter
Kommentare
(10 Kommentare)