用陪审团取代法官:用多样化模型面板评估LLM生成

2024-04-30

大型语言模型 (LLM) 的快速发展已经超过了我们准确评估其质量的能力。为了解决这个问题,许多评估现在依赖于使用 LLM 本身作为评判者来对其他 LLM 输出的质量进行评分,通常使用像 GPT4 这样的大型模型。然而,这种方法成本高昂,并且已被证明会引入模型内偏差。本文提出了一种使用 LLM 评估者小组 (PoLL) 来评估模型的方法。研究发现,使用由大量较小模型组成的 PoLL 比使用单个大型评判者表现更好,由于其由不相交的模型家族组成,因此表现出更少的模型内偏差,而且成本降低了七倍多。

39