Kagi 大型语言模型基准测试项目通过不同的、具有挑战性的任务来评估当代大型语言模型 (LLM)。与标准基准测试不同,Kagi 的测试经常变化,并且大多是新颖的,提供了对模型能力的严格评估。评估内容包括模型的推理、编码和指令遵循能力,并定期更新基准,加入更难的问题。