Fragmentação em Tempo Real para Modelos de Ação-Linguagem-Visão

2025-06-17

Este artigo apresenta o Real-Time Chunking (RTC), um algoritmo que aborda o desafio da execução em tempo real de modelos de Ação-Linguagem-Visão (VLA) em robótica. VLAs tradicionais são lentos e propensos a descontinuidades ao mudar entre blocos de ação, levando a um comportamento instável do robô. O RTC resolve isso dividindo as ações em blocos e gerando o próximo bloco enquanto executa o anterior, alcançando desempenho em tempo real e eliminando descontinuidades. Experimentos demonstram que o RTC melhora significativamente a velocidade e a precisão de execução, mantendo um desempenho robusto mesmo sob alta latência. Esta pesquisa prepara o caminho para a construção de robôs capazes de lidar com tarefas complexas em tempo real.

Leia mais