QB64 搜索技巧 核手提箱 文字记录 海洋云增白 开源地图 Bliss AI 搜索答案 深海沉船 自由职业 policy 小团队 颈挂空调 Chumby 个人电脑 极端主义 团队 世界 PostgreSQL AI工具 证券 DirectX 防溢 DrawingPics Zulip 儿童读物 化学 连续滚动 代码审查 三菱电机 更多

用陪审团取代法官:用多样化模型面板评估LLM生成 (arxiv.org)

大型语言模型 (LLM) 的快速发展已经超过了我们准确评估其质量的能力。为了解决这个问题,许多评估现在依赖于使用 LLM 本身作为评判者来对其他 LLM 输出的质量进行评分,通常使用像 GPT4 这样的大型模型。然而,这种方法成本高昂,并且已被证明会引入模型内偏差。本文提出了一种使用 LLM 评估者小组 (PoLL) 来评估模型的方法。研究发现,使用由大量较小模型组成的 PoLL 比使用单个大型评判者表现更好,由于其由不相交的模型家族组成,因此表现出更少的模型内偏差,而且成本降低了七倍多。