Q*：利用审慎规划改进大型语言模型的多步推理

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

2024-06-21

文章介绍了一种名为Q*的通用框架，用于改进大型语言模型在多步推理任务中的表现。Q*框架通过学习一个即插即用的Q值模型作为启发式函数，有效引导大型语言模型选择最有希望的下一步，而无需针对每个任务微调模型，避免了巨大的计算开销和性能下降的潜在风险。

(arxiv.org)

未分类多步推理审慎规划