SWE-Bench Pro：一个用于评估大型语言模型软件工程能力的挑战性基准

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

SWE-Bench Pro：一个用于评估大型语言模型软件工程能力的挑战性基准

2025-09-22

SWE-Bench Pro是一个新的基准测试，用于评估大型语言模型（LLM）和智能体在复杂软件工程任务中的长期性能。给定一个代码库和一个问题，模型需要生成一个补丁来解决该问题。该数据集受到SWE-Bench的启发，并使用Docker和Modal进行可重复的评估，需要用户设置Docker环境和Modal凭据才能运行评估脚本。

(github.com)

开发

阿里巴巴发布Qwen3-Omni：首个原生端到端多模态大模型

Windows 11原生视频壁纸功能回归