Q*:利用审慎规划改进大型语言模型的多步推理

2024-06-21

文章介绍了一种名为Q*的通用框架,用于改进大型语言模型在多步推理任务中的表现。Q*框架通过学习一个即插即用的Q值模型作为启发式函数,有效引导大型语言模型选择最有希望的下一步,而无需针对每个任务微调模型,避免了巨大的计算开销和性能下降的潜在风险。

50