Além de Chamadas LLMs em Cadeia: Roteamento Diferenciável para LLMs Eficientes

2025-07-06
Além de Chamadas LLMs em Cadeia: Roteamento Diferenciável para LLMs Eficientes

Arquiteturas modernas de agentes de modelos de linguagem grandes (LLMs) dependem muito da ligação em cadeia de chamadas de LLMs, resultando em altos custos, latência e baixa escalabilidade. Este artigo introduz um roteador diferenciável que modela a seleção de ferramentas como uma função treinável, em vez de depender de LLMs. Essa abordagem aprende a seleção de ferramentas a partir de dados por meio de aprendizado por reforço ou ajuste fino supervisionado, funcionando fora do LLM. Ela evita chamadas de API externas, melhora o determinismo e a composição e reduz os custos. Experimentos mostram que esse método reduz significativamente os custos, melhora o desempenho e esclarece o comportamento do modelo, marcando um passo em direção a sistemas LLM que se parecem menos com cadeias de prompts e mais com programas.