Au-delà des chaînes d'appels LLM : routage différentiable pour des LLMs efficaces
Les architectures modernes des agents de grands modèles de langage (LLM) reposent fortement sur l'enchaînement des appels LLM, ce qui entraîne des coûts élevés, une latence importante et une faible évolutivité. Cet article présente un routeur différentiable qui modélise la sélection d'outils comme une fonction entraînable, au lieu de dépendre des LLM. Cette approche apprend la sélection d'outils à partir de données via l'apprentissage par renforcement ou l'ajustement fin supervisé, fonctionnant en dehors du LLM. Elle évite les appels d'API externes, améliore le déterminisme et la composition, et réduit les coûts. Les expériences montrent que cette méthode réduit considérablement les coûts, améliore les performances et clarifie le comportement du modèle, marquant un pas vers des systèmes LLM qui ressemblent moins à des chaînes d'invites et plus à des programmes.