这篇论文研究了在固定推理预算下,使用更强大但更昂贵的语言模型(SE)与更弱但更便宜的语言模型(WC)生成合成数据之间的权衡。研究发现,WC模型生成的数据可能具有更高的覆盖率和多样性,但也表现出更高的假阳性率。然而,在知识蒸馏、自我改进和弱到强改进设置等不同情况下,使用WC模型生成的数据微调的语言模型在多个基准测试和多个WC和SE模型选择中始终优于使用SE模型生成的数据训练的模型。