实时视觉-语言-动作模型的实时分块算法

2025-06-17

这篇论文介绍了一种名为实时分块(RTC)的算法,该算法解决了视觉-语言-动作(VLA)模型在机器人控制中的实时性问题。传统的VLA模型运行缓慢,且在切换动作块时容易出现不连续性,导致机器人动作不稳定。RTC算法通过将动作分成多个块,并在执行前一个块的同时生成下一个块,从而实现了实时执行,避免了不连续性。实验结果表明,RTC算法显著提高了机器人的执行速度和精度,即使在高延迟的情况下也能保持良好的性能。这项研究为构建能够实时处理复杂任务的机器人奠定了基础。