Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

Q*：利用审慎规划改进大型语言模型的多步推理

2024-06-21

文章介绍了一种名为Q*的通用框架，用于改进大型语言模型在多步推理任务中的表现。Q*框架通过学习一个即插即用的Q值模型作为启发式函数，有效引导大型语言模型选择最有希望的下一步，而无需针对每个任务微调模型，避免了巨大的计算开销和性能下降的潜在风险。

(arxiv.org)

未分类多步推理审慎规划