Webtagr - Sumário de Notícias de Tecnologia

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

Avaliações não são suficientes: as limitações da avaliação de LLMs

2025-03-03

Este artigo critica a prática comum de depender de avaliações para garantir o desempenho de software de Modelos de Linguagem Grandes (LLMs). Embora reconheça o papel das avaliações na comparação de diferentes modelos base e testes unitários, o autor destaca várias falhas críticas em sua aplicação no mundo real: dificuldade em criar conjuntos de dados de teste abrangentes; limitações dos métodos de pontuação automatizados; a inadequação de avaliar apenas o modelo base sem considerar o desempenho de todo o sistema; e o mascaramento de erros graves pela média dos resultados da avaliação. O autor argumenta que as avaliações não conseguem resolver o problema inerente de "cauda longa" dos LLMs, em que situações inesperadas sempre surgem na produção. Por fim, o artigo apela por uma mudança nas práticas de desenvolvimento de LLMs, defendendo uma mudança de depender exclusivamente de avaliações para priorizar testes de usuários e testes de sistema mais abrangentes.