SWE-bench: Modelos de linguagem podem resolver problemas reais do GitHub?
2025-01-08
O SWE-bench é um conjunto de dados de referência que avalia a capacidade de modelos de linguagem grandes em resolver automaticamente problemas reais do GitHub. Os pesquisadores coletaram 2.294 pares de Issue-Pull Request de 12 repositórios populares do Python, validando as soluções por meio de testes unitários. O ranking mais recente mostra vários modelos alcançando taxas de sucesso variadas, com alguns ultrapassando 50% de resolução. O projeto fornece recursos, incluindo uma versão simplificada e modelos pré-treinados para facilitar a avaliação e a reprodutibilidade.
Desenvolvimento
Reparo de Código