ReKep是一种基于视觉的机器人操控约束表示方法,它使用Python函数将环境中的一组3D关键点映射到数值成本。通过将操作任务表示为一系列关系关键点约束,ReKep采用分层优化程序来求解机器人动作,并通过感知-动作循环实时生成机械臂末端姿态序列。该方法利用大型视觉模型和视觉语言模型,根据自然语言指令和RGB-D观测自动生成ReKep,无需手动指定每个新任务的约束。实验证明,ReKep能够在移动单臂和固定双臂平台上执行各种操作任务,包括多阶段、真实环境、双手操作和反应行为,无需特定任务数据或环境模型。