SWE-bench: Modelos de linguagem podem resolver problemas reais do GitHub?

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

SWE-bench: Modelos de linguagem podem resolver problemas reais do GitHub?

2025-01-08

O SWE-bench é um conjunto de dados de referência que avalia a capacidade de modelos de linguagem grandes em resolver automaticamente problemas reais do GitHub. Os pesquisadores coletaram 2.294 pares de Issue-Pull Request de 12 repositórios populares do Python, validando as soluções por meio de testes unitários. O ranking mais recente mostra vários modelos alcançando taxas de sucesso variadas, com alguns ultrapassando 50% de resolução. O projeto fornece recursos, incluindo uma versão simplificada e modelos pré-treinados para facilitar a avaliação e a reprodutibilidade.

(www.swebench.com)

Desenvolvimento Reparo de Código

O Efeito Rato: Como Engenheiros Constroem Reputação em Grandes Empresas de Tecnologia

Incêndios em Los Angeles forçam milhares a evacuar, JPL da NASA fecha