为了提高大型语言模型输出结果的可信度,文章提出了一种基于验证者-证明者博弈的训练算法,旨在提高模型输出的可读性。该算法通过训练小型验证器来预测解决方案的正确性,并使用“乐于助人”的证明者生成验证器认可的正确解决方案,以及使用“狡猾”的证明者生成欺骗验证器的错误解决方案,从而迭代地训练模型。实验结果表明,这种训练方法能够提高“乐于助人”证明者的准确性和验证器对对抗性攻击的鲁棒性,并有效提高了模型输出对人类的可读性。