No novo estudo, a Apple ensinou um modelo de inteligência artificial a reconhecer movimentos de mão que não faziam parte do conjunto de dados de treinamento original. Aqui estão os detalhes.
O que é EMG?
A Apple publicou um novo estudo intitulado EMBridge: Aprimorando a Generalização de Movimentos de Mão a partir de Sinais EMG através da Aprendizagem de Representação Cruzada de Modalidades em seu blog de Pesquisa em Aprendizado de Máquina. Este estudo será apresentado na Conferência ICLR 2026 em abril.
No estudo, os pesquisadores explicam como um modelo de inteligência artificial reconhece movimentos de mão, mesmo que esses movimentos não façam parte do conjunto de dados original.
Para alcançar isso, eles desenvolveram o EMBridge, uma estrutura de aprendizagem de representação cruzada de modalidades que fecha a diferença entre EMG e pose.
EMG, ou Eletromiografia, mede a atividade elétrica produzida durante a contração muscular. Suas aplicações práticas vão desde diagnósticos médicos até fisioterapia e controle de membros protéticos.
Recentemente (este definitivamente não é um campo novo), tem sido mais amplamente pesquisado em dispositivos vestíveis e sistemas AR/VR.
Por exemplo, os óculos Ray-Ban Display da Meta utilizam a tecnologia EMG através de um dispositivo que é colocado no pulso, que a Meta chama de Neural Band. Este dispositivo é descrito como "permitindo que você navegue nas funcionalidades do Meta Ray-Ban Display interpretando seus sinais musculares".
No trabalho da Apple, os sinais EMG usados para treinamento não foram detectados por um dispositivo de pulso. Em vez disso, os pesquisadores usaram dois conjuntos de dados:
- emg2pose: "[…] um grande conjunto de dados EMG de código aberto contendo 370 horas de sEMG e dados de pose de mão sincronizados entre 193 participantes. Inclui vários movimentos de mão discretos e contínuos, como fazer um punho ou contar até cinco, abrangendo 29 grupos de comportamento diferentes. As etiquetas de pose da mão foram geradas usando um sistema de captura de movimento de alta resolução. O conjunto de dados completo contém mais de 80 milhões de etiquetas de pose e é equivalente em escala aos maiores conjuntos de dados de visão computacional. Cada usuário realizou quatro sessões de gravação para cada categoria de movimento da mão, cada uma com uma configuração diferente de faixa EMG. Cada sessão durou de 45 a 120 segundos e os usuários realizaram de 3 a 5 movimentos semelhantes ou movimentos de forma livre. Usamos janelas de 2 segundos não sobrepostas como sequências de entrada. O EMG foi normalizado, filtrado por banda passante (2–250 Hz) e filtrado em notch a 60 Hz."
- NinaPro DB2: "Usamos dois conjuntos de dados EMG da NinaPro para uma avaliação mais abrangente do EMBridge. Em particular, o NinaPro DB2 contém dados EMG-pose emparelhados de 40 participantes. Inclui 49 movimentos de mão realizados por 40 participantes saudáveis (incluindo flexões básicas de dedos, pegadas funcionais e movimentos combinados). Os sinais EMG são registrados com 12 eletrodos colocados no antebraço a uma taxa de amostragem de 2 kHz, e os dados cinemáticos da mão são capturados com uma luva de dados. Para a classificação de movimentos de mão para frente, usamos o NinaPro DB7, que contém dados de 20 participantes sem amputação coletados usando o mesmo dispositivo EMG e conjunto de movimentos do DB2."
Com tudo isso em mente, é fácil ver como o EMBridge da Apple pode abrir caminho para um futuro modelo do Apple Watch (ou outros dispositivos vestíveis) controlar o Apple Vision Pro, Macs, iPhones e outros dispositivos vestíveis, especialmente os rumores sobre futuros óculos inteligentes.
Na prática, as possibilidades podem ser significativas, desde novos métodos de interação até melhorias de acessibilidade.
Claro, o estudo em si não menciona um produto ou aplicação específica da Apple, mas faz a seguinte declaração:
"Uma das aplicações práticas potenciais de nossa estrutura é a Interação Humano-Computador vestível. Em cenários como controle de VR/AR e próteses, um dispositivo colocado no pulso deve extrair continuamente movimentos de mão a partir de EMG."
O que é EMBridge?
EMBridge foi o caminho que os pesquisadores tomaram para fechar a lacuna entre os sinais musculares EMG reais e os dados de pose de mão estruturados.
O modelo treinado usando a estrutura de representação cruzada foi inicialmente pré-treinado separadamente em dados de EMG e de pose de mão.
Em seguida, os pesquisadores alinharam duas representações para permitir que o codificador EMG aprendesse com o codificador de pose. Isso permitiu que o EMBridge aprendesse a reconhecer padrões de movimento de mão a partir de sinais EMG.
Depois que esse processo foi concluído, o sistema foi treinado ocultando algumas partes dos dados de pose e pedindo ao modelo que as reestruturasse usando apenas as informações extraídas dos sinais EMG.
O resultado foi explicado pelos pesquisadores da seguinte forma:
"De acordo com o que sabemos, o EMBridge é a primeira estrutura de aprendizagem de representação cruzada que realiza classificação de movimentos de mão a partir de sinais EMG vestíveis do zero e demonstra potencial para reconhecimento de movimentos de mão no mundo real em dispositivos vestíveis."
Para reduzir os erros de treinamento resultantes da avaliação negativa de movimentos semelhantes, os pesquisadores ensinaram ao modelo a reconhecer que as poses representavam configurações de mão semelhantes. Isso permitiu que o modelo criasse alvos suaves para essas poses, estruturando-as em vez de avaliá-las completamente de forma independente.
Isso ajudou a estruturar o espaço de representação do modelo e aumentou sua capacidade de generalizar para movimentos que nunca havia visto antes.
Os autores avaliaram o EMBridge em dois testes de comparação, emg2pose e NinaPro, e descobriram que ele superava continuamente os métodos existentes, especialmente em reconhecimento de movimentos de mão do zero (ou nunca vistos antes). O mais importante é que isso foi alcançado com apenas 40% dos dados de treinamento.
Uma limitação importante do artigo é que o modelo depende de conjuntos de dados que contêm tanto sinais EMG quanto dados de pose de mão sincronizados. Isso significa que seu treinamento ainda depende de conjuntos de dados específicos que podem ser difíceis de coletar.
Ainda assim, o estudo é interessante, especialmente em um momento em que o controle de dispositivos baseado em EMG está em ascensão.
Para detalhes técnicos completos sobre o EMBridge, siga este link, incluindo os componentes Q-Former, MPRL e CASCLe.
Produtos que Valem a Pena Conferir na Amazon
- O livro de David Pogue, 'Apple: Os Primeiros 50 Anos'
- Logitech MX Master 4
- AirPods Pro 3
- AirTag (2ª Geração) – Pacote com 4
- Apple Watch Series 11
- Adaptador CarPlay sem fio
Comentários
(5 Comentários)