I ricercatori di Apple hanno condotto un test A/B per misurare l'impatto delle etichette di pertinenza generate dall'AI sui ranking delle ricerche dell'App Store e sui download delle app. Ecco i risultati che hanno trovato.

Le etichette di pertinenza generate dall'AI hanno leggermente migliorato le conversioni delle ricerche nell'App Store

In un nuovo studio intitolato "Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments", un gruppo di ricercatori di Apple ha esplorato se i LLM potessero aiutare a migliorare i risultati di ricerca dell'App Store. Questo riguarda la produzione di etichette di pertinenza utilizzate per addestrare il sistema di ranking.

Come indicato nello studio, la pertinenza è un elemento chiave per aiutare gli utenti a trovare le app che cercano. Sebbene ci siano molti segnali che possono contribuire al ranking delle ricerche, i ricercatori si sono concentrati su due segnali principali:

  • Pertinenza comportamentale, che riflette come gli utenti interagiscono con i risultati; ad esempio, se cliccano su un'app o la scaricano.
  • Pertinenza testuale, che misura quanto bene i metadati di un'app (come nome, descrizione e parole chiave) corrispondano in modo significativo alla query di ricerca di un utente.

Nello studio, i ricercatori notano che mentre ci sono abbondanti dati sulla pertinenza comportamentale (perché è facilmente misurabile), non è lo stesso per la pertinenza testuale:

Sebbene le etichette di pertinenza comportamentale siano abbondanti, le etichette di pertinenza testuale generate dai giudizi umani sono molto più rare. Questo crea un problema fondamentale: le etichette di pertinenza testuale di alta qualità sono rare e costose da produrre, creando un collo di bottiglia nella scalabilità e dando una debole spinta all'obiettivo di pertinenza testuale.

Per superare questo problema, i ricercatori hanno messo a punto un LLM con 3 miliardi di parametri sui giudizi umani esistenti, in modo che potesse apprendere ad assegnare etichette di pertinenza alle app basate sulla query di ricerca di un utente e sui metadati dell'app.

Successivamente, hanno generato milioni di nuove etichette di pertinenza con questo modello e hanno riaddestrato il sistema di ranking dell'App Store utilizzando sia i dati originali che le etichette generate dal LLM.

Dopo aver completato questo processo, hanno effettuato una valutazione offline e poi hanno condotto un test A/B globale sul traffico dell'App Store dal vivo:

“(...) il modello llm-augmented ha mostrato un aumento statisticamente significativo del +0.24% nel tasso di conversione, definito come il rapporto di download di un'app con almeno una sessione di ricerca. Sebbene questo numero possa sembrare piccolo, è considerato un miglioramento significativo per un classificatore industriale maturo. Questo guadagno è stato osservato nel 89% delle vetrine.”

In altre parole, gli utenti che hanno visto i risultati di ricerca classificati utilizzando il modello potenziato da LLM hanno scaricato il 0.24% in più di app rispetto agli utenti che hanno visto i risultati di ricerca presentati dal modello di ranking tradizionale.

E sebbene il 0.24% possa sembrare un aumento molto piccolo, considerando che nel 2025 si prevede che i download totali dell'App Store saranno circa 38 miliardi, questo scala abbastanza rapidamente. In pratica, questo potrebbe significare milioni di download aggiuntivi dalle ricerche dell'App Store, il che è sicuramente qualcosa che gli sviluppatori apprezzeranno.

Segui questo link per leggere l'intero studio.

Offerte di accessori su Amazon

  • Logitech MX Master 4
  • AirPods Pro 3
  • AirTag (2° Generazione) – Pacco da 4
  • Apple Watch Series 11
  • Adattatore CarPlay wireless