Helix: Um Modelo de Ação Visão-Linguagem para Manipulação Robótica de Uso Geral

2025-02-20
Helix: Um Modelo de Ação Visão-Linguagem para Manipulação Robótica de Uso Geral

A Figure apresenta o Helix, um modelo inovador de Ação Visão-Linguagem (VLA) que unifica percepção, compreensão de linguagem e controle aprendido para superar desafios de longa data na robótica. O Helix alcança várias inovações: controle contínuo de alta frequência de todo o corpo superior, colaboração entre vários robôs e a capacidade de pegar virtualmente qualquer objeto doméstico pequeno usando apenas instruções em linguagem natural. Uma única rede neural aprende todos os comportamentos sem ajuste fino específico para a tarefa, rodando em GPUs embutidas de baixo consumo de energia para prontidão comercial. A arquitetura do Helix, com "Sistema 1" (política visuomotora reativa rápida) e "Sistema 2" (VLM pré-treinado na internet), permite generalização rápida e controle preciso, abrindo caminho para escalonar robôs humanoides para ambientes domésticos.

Leia mais