Dans cette nouvelle étude, Apple a appris à son modèle d'intelligence artificielle à reconnaître des mouvements de la main qui ne faisaient pas partie de l'ensemble de données d'entraînement original. Voici les détails.

Qu'est-ce que l'EMG ?

Apple a publié une nouvelle étude intitulée EMBridge : Apprentissage de la représentation croisée-modale pour améliorer la généralisation des mouvements de la main à partir de signaux EMG sur son blog de recherche en apprentissage automatique. Cette étude sera présentée lors de la conférence ICLR 2026 en avril.

Dans cette étude, les chercheurs expliquent comment un modèle d'intelligence artificielle reconnaît les mouvements de la main même s'ils ne font pas partie de l'ensemble de données original.

Pour y parvenir, ils ont développé EMBridge, un cadre d'apprentissage de représentation croisée-modale qui comble l'écart entre les modalités EMG et de position.

L'EMG, ou électromyographie, mesure l'activité électrique produite par les muscles lors de leur contraction. Ses applications pratiques s'étendent du diagnostic médical à la physiothérapie et au contrôle des membres prothétiques.

Récemment (ce n'est certainement pas un domaine nouveau), il a été étudié de manière plus répandue dans les dispositifs portables et les systèmes AR/VR.

Par exemple, les lunettes Ray-Ban Display de Meta utilisent la technologie EMG via un dispositif porté au poignet, que Meta appelle Neural Band. Ce dispositif est décrit comme permettant de "naviguer dans les fonctionnalités des lunettes Meta Ray-Ban Display en interprétant vos signaux musculaires".

Dans le travail d'Apple, les signaux EMG utilisés pour l'entraînement n'ont pas été détectés par un dispositif au poignet. Au lieu de cela, les chercheurs ont utilisé deux ensembles de données :

  • emg2pose : "[…] un ensemble de données EMG open source à grande échelle contenant 370 heures de sEMG et de données de position de la main synchronisées entre 193 participants. Il comprend divers mouvements de la main discrets et continus, tels que faire un poing ou compter jusqu'à cinq, regroupés en 29 groupes de comportements différents. Les étiquettes de position de la main ont été créées à l'aide d'un système de capture de mouvement haute résolution. L'ensemble de données complet contient plus de 80 millions d'étiquettes de position et est comparable en taille aux plus grands équivalents de vision par ordinateur. Chaque utilisateur a réalisé quatre sessions d'enregistrement pour chaque catégorie de mouvement de la main, chacune avec une configuration de bande EMG différente. Chaque session a duré entre 45 et 120 secondes et les utilisateurs ont effectué 3 à 5 mouvements similaires ou des mouvements en libre forme. Nous utilisons des fenêtres de 2 secondes non chevauchantes comme séquences d'entrée. L'EMG est normalisé, filtré par bande passante (2-250 Hz) et filtré en notch à 60 Hz."
  • NinaPro DB2 : "Pour une évaluation plus complète d'EMBridge, nous avons utilisé deux ensembles de données EMG NinaPro. En particulier, NinaPro DB2 contient des données EMG-position appariées de 40 participants. Il comprend 49 mouvements de la main (y compris les flexions de doigts de base, les prises fonctionnelles et les mouvements combinés) réalisés par 40 participants en bonne santé. Les signaux EMG sont enregistrés à l'aide de 12 électrodes placées sur l'avant-bras à une fréquence d'échantillonnage de 2 kHz, et les données cinématiques de la main sont capturées à l'aide d'un gant de données. Pour la classification des mouvements de la main à venir, nous utilisons NinaPro DB7, qui contient des données de 20 participants non amputés, collectées avec le même appareil EMG et le même ensemble de mouvements que DB2."

Avec tout cela en tête, il est facile de voir comment l'EMBridge d'Apple pourrait ouvrir la voie à un futur modèle d'Apple Watch (ou d'autres dispositifs portables) pour contrôler l'Apple Vision Pro, les Mac, les iPhones et d'autres appareils portables, en particulier les lunettes intelligentes à venir selon les rumeurs.

En pratique, les possibilités allant des nouvelles méthodes d'interaction aux améliorations d'accessibilité peuvent être significatives.

Bien sûr, l'étude elle-même ne spécifie aucun produit ou application Apple en particulier, mais elle indique :

"L'une des applications pratiques potentielles de notre cadre est l'interaction homme-machine portable. Dans des scénarios tels que le contrôle VR/AR et des prothèses, un dispositif porté au poignet doit extraire en continu les mouvements de la main à partir de l'EMG."

Qu'est-ce qu'EMBridge ?

EMBridge était la voie pour les chercheurs de combler le fossé entre les signaux EMG réels et les données de position de la main structurées.

Le modèle entraîné en utilisant le cadre croisé-modale a d'abord reçu un pré-entraînement séparé sur les données EMG et de position de la main.

Ensuite, les chercheurs ont aligné deux représentations pour permettre à l'encodeur EMG d'apprendre de l'encodeur de position. Cela a permis à EMBridge d'apprendre à reconnaître les motifs de mouvement de la main à partir des signaux EMG.

Une fois ce processus terminé, le système a été entraîné en masquant certaines parties des données de position et en demandant au modèle de les reconstruire en utilisant uniquement les informations extraites des signaux EMG.

Le résultat a été expliqué par les chercheurs comme suit :

"À notre connaissance, EMBridge est le premier cadre d'apprentissage de représentation croisée-modale qui réalise une classification de mouvements de la main à partir de signaux EMG portables à partir de zéro et montre un potentiel de reconnaissance des mouvements de la main dans le monde réel pour les dispositifs portables."

Pour réduire les erreurs d'entraînement dues à l'évaluation négative de mouvements similaires, les chercheurs ont appris au modèle à reconnaître que les positions représentaient des configurations de main similaires. Cela a permis au modèle de créer des cibles douces pour ces positions et de les structurer plutôt que de les évaluer complètement de manière indépendante.

Cela a aidé à structurer l'espace de représentation du modèle et a amélioré sa capacité à généraliser sur des mouvements qu'il n'avait jamais vus auparavant.

Les auteurs ont évalué EMBridge sur deux tests de comparaison, emg2pose et NinaPro, et ont constaté qu'il surpassait constamment les méthodes existantes, en particulier en ce qui concerne la reconnaissance de mouvements de la main à partir de zéro (ou jamais vus auparavant). Fait important, cela a été réalisé avec seulement 40 % des données d'entraînement.

Une limitation importante de l'article est que le modèle dépend des ensembles de données contenant à la fois des signaux EMG et des données de position de la main synchronisées. Cela signifie que leur formation dépend encore d'ensembles de données spécifiques qui peuvent être difficiles à collecter.

Cependant, l'étude est intéressante, surtout à une époque où le contrôle des dispositifs basés sur l'EMG est en plein essor.

Pour des détails techniques complets sur EMBridge, y compris les composants Q-Former, MPRL et CASCLe, suivez ce lien.

Produits à vérifier sur Amazon

  • Le livre de David Pogue 'Apple : Les 50 premières années'
  • Logitech MX Master 4
  • AirPods Pro 3
  • AirTag (2ème génération) – Pack de 4
  • Apple Watch Series 11
  • Adaptateur CarPlay sans fil