Über verkettete LLM-Aufrufe hinaus: Differenzierbares Routing für effiziente LLMs

2025-07-06
Über verkettete LLM-Aufrufe hinaus: Differenzierbares Routing für effiziente LLMs

Moderne Architekturen von Large Language Model (LLM)-Agenten verlassen sich stark auf das Verketten von LLM-Aufrufen, was zu hohen Kosten, Latenz und geringer Skalierbarkeit führt. Dieser Artikel stellt einen differenzierbaren Router vor, der die Werkzeugauswahl als trainierbare Funktion modelliert, anstatt von LLMs abhängig zu sein. Dieser Ansatz lernt die Werkzeugauswahl aus Daten durch Reinforcement Learning oder überwachtes Feintuning und läuft vollständig außerhalb des LLM. Er vermeidet externe API-Aufrufe, verbessert Determinismus und Komposition und reduziert die Kosten. Experimente zeigen, dass diese Methode die Kosten deutlich senkt, die Leistung verbessert und das Modellverhalten klärt. Sie markiert einen Schritt hin zu LLM-Systemen, die weniger wie Prompt-Ketten und mehr wie Programme aussehen.

Mehr lesen