Avaliações não são suficientes: as limitações da avaliação de LLMs
Este artigo critica a prática comum de depender de avaliações para garantir o desempenho de software de Modelos de Linguagem Grandes (LLMs). Embora reconheça o papel das avaliações na comparação de diferentes modelos base e testes unitários, o autor destaca várias falhas críticas em sua aplicação no mundo real: dificuldade em criar conjuntos de dados de teste abrangentes; limitações dos métodos de pontuação automatizados; a inadequação de avaliar apenas o modelo base sem considerar o desempenho de todo o sistema; e o mascaramento de erros graves pela média dos resultados da avaliação. O autor argumenta que as avaliações não conseguem resolver o problema inerente de "cauda longa" dos LLMs, em que situações inesperadas sempre surgem na produção. Por fim, o artigo apela por uma mudança nas práticas de desenvolvimento de LLMs, defendendo uma mudança de depender exclusivamente de avaliações para priorizar testes de usuários e testes de sistema mais abrangentes.
Leia mais