SWE-Bench Pro: Um Benchmark Desafiador para Avaliar LLMs em Engenharia de Software
SWE-Bench Pro é um novo benchmark para avaliar modelos de linguagem grandes (LLMs) e agentes em tarefas de longo prazo de engenharia de software. Dado um código base e um problema, o modelo tem a tarefa de gerar um patch que resolva o problema descrito. Inspirado no SWE-Bench, ele usa Docker e Modal para avaliações reprodutíveis, exigindo que os usuários configurem um ambiente Docker e credenciais Modal para executar o script de avaliação.