In der neuen Studie hat Apple einem KI-Modell beigebracht, Handbewegungen zu erkennen, die nicht Teil des ursprünglichen Trainingsdatensatzes sind. Hier sind die Details.
Was ist EMG?
Apple hat in seinem Machine Learning Research Blog eine neue Studie mit dem Titel "EMBridge: Cross-Modal Representation Learning to Enhance Hand Motion Generalization from EMG Signals" veröffentlicht. Diese Studie wird im April auf der ICLR 2026 Konferenz präsentiert.
In der Studie erklären die Forscher, wie ein KI-Modell Handbewegungen erkennt, obwohl diese nicht Teil des ursprünglichen Datensatzes sind.
Um dies zu erreichen, entwickelten sie EMBridge, einen Cross-Modal Representation Learning-Rahmen, der die Modalitätsdifferenz zwischen EMG und Pose überbrückt.
EMG, also Elektromyographie, misst die elektrische Aktivität, die von den Muskeln während ihrer Kontraktion erzeugt wird. Praktische Anwendungen reichen von medizinischer Diagnostik über Physiotherapie bis hin zur Steuerung von Prothesen.
In letzter Zeit (dies ist definitiv kein neues Feld) wurde es häufiger in tragbaren Geräten und AR/VR-Systemen untersucht.
Zum Beispiel nutzen die Ray-Ban Display-Brillen von Meta die EMG-Technologie über ein Gerät, das als Neural Band bezeichnet wird und am Handgelenk getragen wird. Dieses Gerät wird als "ermöglicht es Ihnen, durch die Funktionen der Meta Ray-Ban Display zu navigieren, indem es Ihre Muskelsignale interpretiert" beschrieben.
In Apples Studie wurden die für das Training verwendeten EMG-Signale nicht von einem Handgelenkgerät erfasst. Stattdessen verwendeten die Forscher zwei Datensätze:
- emg2pose: "[…] ein groß angelegter Open-Source-EMG-Datensatz, der 370 Stunden sEMG und synchronisierte Handpositionsdaten von 193 Teilnehmern umfasst. Er enthält verschiedene diskrete und kontinuierliche Handbewegungen aus 29 verschiedenen Verhaltensgruppen, wie z.B. das Fäusten oder das Zählen bis fünf. Die Handpositionsetiketten wurden mit einem hochauflösenden Motion-Capture-System erstellt. Der vollständige Datensatz umfasst über 80 Millionen Positionsetiketten und ist in ähnlichem Maßstab wie die größten Computer Vision-Äquivalente. Jeder Benutzer führte vier Aufnahme-Sitzungen für jede Handbewegungskategorie durch, jede mit einer anderen EMG-Bandplatzierung. Jede Sitzung dauerte 45–120 Sekunden, und die Benutzer führten 3–5 ähnliche Bewegungen oder freie Bewegungen aus. Wir verwenden überlappende 2-Sekunden-Fenster als Eingabesequenzen. EMG wurde normalisiert, bandpassgefiltert (2–250 Hz) und bei 60 Hz notch-gefiltert."
- NinaPro DB2: "Für eine umfassendere Bewertung von EMBridge verwendeten wir zwei NinaPro EMG-Datensätze. Insbesondere enthält NinaPro DB2 gepaarte EMG-Pose-Daten von 40 Teilnehmern. Es umfasst 49 Handbewegungen (einschließlich grundlegender Fingerbeugungen, funktioneller Greifbewegungen und kombinierter Bewegungen), die von 40 gesunden Teilnehmern durchgeführt wurden. Die EMG-Signale werden mit 12 Elektroden, die mit einer Abtastrate von 2 kHz am Unterarm angebracht sind, aufgezeichnet, und die Handkinematikdaten werden mit einem Datenhandschuh erfasst. Für die Vorhersage von Handbewegungen verwenden wir NinaPro DB7, das Daten von 20 nicht amputierten Teilnehmern enthält, die mit dem gleichen EMG-Gerät und Bewegungsset wie DB2 gesammelt wurden."
Angesichts all dessen ist es leicht zu erkennen, dass Apples EMBridge den Weg für ein zukünftiges Apple Watch-Modell (oder andere tragbare Geräte) ebnen könnte, um Apple Vision Pro, Macs, iPhones und andere tragbare Geräte, insbesondere die kommenden Smart-Brillen, die Gerüchten zufolge in Planung sind, zu steuern.
In der Praxis könnten die Möglichkeiten von neuen Interaktionsmethoden bis hin zu Verbesserungen der Barrierefreiheit erheblich sein.
Natürlich gibt die Studie selbst kein bestimmtes Apple-Produkt oder keine Anwendung an, erwähnt jedoch die folgende Aussage:
"Eine der potenziellen praktischen Anwendungen unseres Rahmens ist tragbare Mensch-Computer-Interaktion. In Szenarien wie VR/AR und Prothesenkontrolle muss ein am Handgelenk getragenes Gerät kontinuierlich Handbewegungen aus EMG extrahieren."
Was ist EMBridge?
EMBridge war der Weg der Forscher, die Lücke zwischen echten EMG-Muskelsignalen und strukturierten Handpositionsdaten zu schließen.
Das Modell, das unter Verwendung eines Cross-Modal-Rahmens trainiert wurde, erhielt zunächst separate Vortrainings für EMG- und Handpositionsdaten.
Danach ermöglichten die Forscher dem EMG-Coder, vom Pose-Coder zu lernen, indem sie zwei Repräsentationen ausrichteten. Dies ermöglichte es EMBridge, Muster von Handbewegungen aus EMG-Signalen zu erkennen.
Nachdem dieser Prozess abgeschlossen war, wurde das System trainiert, indem es Teile der Positionsdaten verbarg und das Modell aufforderte, diese mithilfe nur der aus EMG-Signalen extrahierten Informationen neu zu konstruieren.
Das Ergebnis wurde von den Forschern wie folgt erklärt:
"Soweit wir wissen, ist EMBridge der erste Cross-Modal-Repräsentations-Lernrahmen, der Handbewegungsklassifikationen von tragbaren EMG-Signalen aus dem Nichts durchführt und zeigt das Potenzial zur Erkennung von Handbewegungen in der realen Welt mit tragbaren Geräten."
Um die Trainingsfehler zu reduzieren, die durch die negative Bewertung ähnlicher Bewegungen entstehen, lehrten die Forscher das Modell, dass die Posen ähnliche Handkonfigurationen repräsentieren. Dies ermöglichte es dem Modell, weiche Ziele für diese Posen zu erstellen und sie zu strukturieren, anstatt sie vollständig unabhängig zu bewerten.
Dies half dem Modell, den Repräsentationsraum zu strukturieren und seine Fähigkeit zur Generalisierung auf zuvor unbekannte Bewegungen zu verbessern.
Die Autoren bewerteten EMBridge in zwei Vergleichstests, emg2pose und NinaPro, und fanden heraus, dass es die bestehenden Methoden kontinuierlich übertrifft, insbesondere bei der Erkennung von Handbewegungen aus dem Nichts (oder zuvor unbekannten). Wichtig ist, dass sie dies nur mit 40 % Trainingsdaten erreichten.
Eine wesentliche Einschränkung des Artikels ist die Abhängigkeit des Modells von Datensätzen, die sowohl EMG-Signale als auch synchronisierte Handpositionsdaten enthalten. Das bedeutet, dass ihr Training immer noch von speziellen Datensätzen abhängt, die schwer zu sammeln sein können.
Dennoch ist die Studie interessant, insbesondere in einer Zeit, in der die Kontrolle von EMG-basierten Geräten im Aufschwung ist.
Für vollständige technische Details zu EMBridge, einschließlich der Komponenten Q-Former, MPRL und CASCLe, folgen Sie diesem Link.
Produkte, die es wert sind, bei Amazon überprüft zu werden
- David Pogues Buch 'Apple: Die ersten 50 Jahre'
- Logitech MX Master 4
- AirPods Pro 3
- AirTag (2. Generation) – 4er Pack
- Apple Watch Series 11
- Drahtloser CarPlay-Adapter
Kommentare
(5 Kommentare)