Les évaluations ne suffisent pas : les limites de l'évaluation des LLM

2025-03-03

Cet article critique la pratique courante consistant à se fier aux évaluations pour garantir les performances des logiciels de grands modèles linguistiques (LLM). Tout en reconnaissant le rôle des évaluations dans la comparaison de différents modèles de base et les tests unitaires, l'auteur souligne plusieurs failles critiques dans leur application réelle : la difficulté à créer des ensembles de données de test exhaustifs ; les limites des méthodes de notation automatisées ; l'insuffisance d'évaluer uniquement le modèle de base sans tenir compte des performances de l'ensemble du système ; et le masquage des erreurs graves par la moyenne des résultats d'évaluation. L'auteur soutient que les évaluations ne parviennent pas à résoudre le problème inhérent de « longue traîne » des LLM, où des situations imprévues surviennent toujours en production. En fin de compte, l'article plaide pour un changement dans les pratiques de développement des LLM, préconisant un passage d'une dépendance exclusive aux évaluations à la priorisation des tests utilisateurs et des tests système plus exhaustifs.

Lire plus