这篇文章介绍了OpenEQA,这是一个全新的具身问答(EQA)基准数据集,支持情景记忆和主动探索用例。OpenEQA包含超过1600个高质量的人工生成问题,涵盖180多个真实世界环境。文章还提供了一个基于大型语言模型(LLM)的自动评估协议,该协议与人类判断具有极好的相关性。研究发现,像GPT-4V这样的最先进的基础模型在OpenEQA上的表现明显落后于人类水平。