Nello studio recente, Apple ha insegnato al modello di intelligenza artificiale a riconoscere i movimenti delle mani che non facevano parte del set di dati di addestramento originale. Ecco i dettagli.
Che cos'è l'EMG?
Apple ha pubblicato un nuovo studio intitolato EMBridge: Apprendimento della Rappresentazione Cross-Modale per Aumentare la Generalizzazione del Movimento della Mano dai Segnali EMG sul blog di Ricerca in Apprendimento Automatico. Questo studio sarà presentato alla Conferenza ICLR 2026 in aprile.
Nello studio, i ricercatori spiegano come un modello di intelligenza artificiale riconosca i movimenti delle mani, anche se non fanno parte del set di dati originale.
Per raggiungere questo obiettivo, hanno sviluppato EMBridge, un framework di apprendimento della rappresentazione cross-modale che colma il divario tra EMG e posizione.
EMG, ovvero Elettromiografia, misura l'attività elettrica prodotta durante la contrazione dei muscoli. Le sue applicazioni pratiche spaziano dalla diagnosi medica alla fisioterapia e al controllo delle protesi.
Recentemente (questo non è certamente un campo nuovo), è stato studiato in modo più ampio nei dispositivi indossabili e nei sistemi AR/VR.
Ad esempio, gli occhiali Ray-Ban Display di Meta utilizzano la tecnologia EMG tramite un dispositivo indossato sul polso, chiamato Neural Band. Questo dispositivo è descritto come "consente di navigare nelle funzionalità di Meta Ray-Ban Display interpretando i segnali muscolari".
Nello studio di Apple, i segnali EMG utilizzati per l'addestramento non sono stati rilevati da un dispositivo da polso. Invece, i ricercatori hanno utilizzato due set di dati:
- emg2pose: "[…] un ampio set di dati EMG open source contenente 370 ore di sEMG e dati di posizione della mano sincronizzati tra 193 partecipanti. Include vari movimenti delle mani discreti e continui che coprono 29 diversi gruppi di comportamento, come fare un pugno o contare fino a cinque. Le etichette di posizione della mano sono state create utilizzando un sistema di cattura del movimento ad alta risoluzione. L'intero set di dati contiene oltre 80 milioni di etichette di posizione ed è di scala simile ai più grandi equivalenti di visione computerizzata. Ogni utente ha eseguito quattro sessioni di registrazione per ogni categoria di movimento della mano, ciascuna con una diversa configurazione di banda EMG. Ogni sessione è durata da 45 a 120 secondi e gli utenti hanno eseguito da 3 a 5 movimenti simili o movimenti liberi. Utilizziamo finestre di 2 secondi non sovrapposte come sequenze di input. L'EMG è stato normalizzato, filtrato con un filtro passa-basso (2-250 Hz) e filtrato a notch a 60 Hz."
- NinaPro DB2: "Per una valutazione più completa di EMBridge, abbiamo utilizzato due set di dati EMG NinaPro. In particolare, NinaPro DB2 contiene dati EMG- posizione abbinati da 40 partecipanti. Include 49 movimenti delle mani eseguiti da 40 partecipanti sani (inclusi piegamenti delle dita di base, prese funzionali e movimenti combinati). I segnali EMG sono registrati con 12 elettrodi posizionati sull'avambraccio a una velocità di campionamento di 2 kHz e i dati cinematici della mano sono catturati con un guanto di dati. Per la classificazione dei movimenti delle mani in avanti, utilizziamo NinaPro DB7, che contiene dati raccolti da 20 partecipanti non amputati utilizzando lo stesso dispositivo EMG e set di movimenti di DB2."
Tutto ciò considerato, è facile vedere come l'EMBridge di Apple potrebbe aprire la strada a un futuro modello di Apple Watch (o altri indossabili) per controllare Apple Vision Pro, Mac, iPhone e altri dispositivi indossabili, in particolare i prossimi occhiali intelligenti secondo le voci.
In pratica, le possibilità potrebbero essere significative, dalle nuove modalità di interazione ai miglioramenti dell'accessibilità.
Certo, lo studio stesso non specifica un prodotto o un'applicazione Apple particolare, ma menziona la seguente affermazione:
"Una delle potenziali applicazioni pratiche del nostro framework è l'Interazione Uomo-Computer indossabile. In scenari come il controllo di protesi e VR/AR, un dispositivo indossato sul polso deve estrarre continuamente i movimenti delle mani dall'EMG."
Che cos'è EMBridge?
EMBridge era il modo in cui i ricercatori colmavano il divario tra i veri segnali muscolari EMG e i dati di posizione delle mani strutturati.
Il modello addestrato utilizzando il framework cross-modale ha ricevuto prima un pre-addestramento separato per i dati EMG e per i dati di posizione delle mani.
Successivamente, i ricercatori hanno allineato due rappresentazioni per consentire all'encoder EMG di apprendere dall'encoder di posizione. Questo ha permesso a EMBridge di imparare a riconoscere i modelli di movimento delle mani dai segnali EMG.
Dopo il completamento di questo processo, il sistema è stato addestrato nascondendo alcune parti dei dati di posizione e chiedendo al modello di ricostruirli utilizzando solo le informazioni estratte dai segnali EMG.
Il risultato è stato spiegato dai ricercatori come segue:
"A quanto pare, EMBridge è il primo framework di apprendimento della rappresentazione cross-modale che esegue la classificazione dei movimenti delle mani da zero a partire dai segnali EMG indossabili e dimostra un potenziale di riconoscimento dei movimenti delle mani nel mondo reale nei dispositivi indossabili."
Per ridurre gli errori di addestramento derivanti dalla valutazione negativa di movimenti simili, i ricercatori hanno insegnato al modello a riconoscere che le posizioni rappresentano configurazioni delle mani simili. Questo ha permesso al modello di creare obiettivi morbidi per queste posizioni e di strutturarle piuttosto che valutarle completamente in modo indipendente.
Questo ha aiutato a strutturare lo spazio di rappresentazione del modello e ha aumentato la sua capacità di generalizzare a movimenti mai visti prima.
Gli autori hanno valutato EMBridge su due test di confronto, emg2pose e NinaPro, e hanno scoperto che superava costantemente i metodi esistenti, in particolare nel riconoscimento dei movimenti delle mani da zero (o mai visti prima). Importante, ha raggiunto questo solo con il 40% dei dati di addestramento.
Una limitazione significativa nell'articolo è la dipendenza del modello da set di dati che contengono sia segnali EMG che dati di posizione delle mani sincronizzati. Questo significa che il loro addestramento è ancora legato a set di dati speciali che possono essere difficili da raccogliere.
Tuttavia, lo studio è interessante, specialmente in un periodo in cui il controllo dei dispositivi basati su EMG è in aumento.
Per dettagli tecnici completi su EMBridge, segui questo link, inclusi i componenti Q-Former, MPRL e CASCLe.
Prodotti da controllare su Amazon
- Il libro di David Pogue 'Apple: i primi 50 anni'
- Logitech MX Master 4
- AirPods Pro 3
- AirTag (2ª generazione) – Pacco da 4
- Apple Watch Series 11
- Adattatore CarPlay wireless
Commenti
(5 Commenti)