Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

用陪审团取代法官：用多样化模型面板评估LLM生成

2024-04-30

大型语言模型 (LLM) 的快速发展已经超过了我们准确评估其质量的能力。为了解决这个问题，许多评估现在依赖于使用 LLM 本身作为评判者来对其他 LLM 输出的质量进行评分，通常使用像 GPT4 这样的大型模型。然而，这种方法成本高昂，并且已被证明会引入模型内偏差。本文提出了一种使用 LLM 评估者小组 (PoLL) 来评估模型的方法。研究发现，使用由大量较小模型组成的 PoLL 比使用单个大型评判者表现更好，由于其由不相交的模型家族组成，因此表现出更少的模型内偏差，而且成本降低了七倍多。

(arxiv.org)

未分类重叠核共振光谱学凝聚态物理材料表征 LLM 评估模型偏差