SWE-Bench Pro:一个用于评估大型语言模型软件工程能力的挑战性基准
2025-09-22
SWE-Bench Pro是一个新的基准测试,用于评估大型语言模型(LLM)和智能体在复杂软件工程任务中的长期性能。给定一个代码库和一个问题,模型需要生成一个补丁来解决该问题。该数据集受到SWE-Bench的启发,并使用Docker和Modal进行可重复的评估,需要用户设置Docker环境和Modal凭据才能运行评估脚本。
开发