通过LLaMa-3 8B的蒙特卡洛树自优化方法实现GPT-4级数学奥林匹克解题能力

2024-06-12

本文介绍了一种名为MCT自优化的算法(MCTSr),该算法将大型语言模型(LLM)与蒙特卡洛树搜索(MCTS)相结合,旨在提高复杂数学推理任务的性能。针对LLM在准确性和可靠性方面的挑战,特别是在策略性和数学推理方面,MCTSr利用系统探索和启发式自优化机制来改进LLM内的决策框架。该算法通过选择、自优化、自我评估和反向传播的迭代过程构建蒙特卡洛搜索树,并利用改进的上置信界(UCB)公式来优化探索-利用平衡。大量实验表明,MCTSr在解决奥林匹克级别的数学问题方面非常有效,显著提高了多个数据集的成功率,包括GSM8K、GSM Hard、MATH,以及奥林匹克级别的基准测试,包括Math Odyssey、AIME和OlympiadBench。

72
未分类 数学推理