SWE-bench: 대규모 언어 모델이 실제 GitHub 문제를 해결할 수 있을까요?

2025-01-08

SWE-bench는 대규모 언어 모델이 실제 GitHub 문제를 자동으로 해결하는 능력을 평가하기 위한 벤치마크 데이터셋입니다. 연구자들은 12개의 인기 있는 Python 저장소에서 2294개의 Issue-Pull Request 쌍을 수집하여 단위 테스트를 통해 솔루션을 검증했습니다. 최신 리더보드는 다양한 모델이 각기 다른 성공률을 달성하고 있음을 보여주며, 일부 모델은 해결률이 50%를 넘는 경우도 있습니다. 이 프로젝트는 평가와 재현성을 용이하게 하기 위해 경량화된 데이터셋과 사전 훈련된 모델 등의 리소스를 제공합니다.

개발 코드 수정