Training von Long-Horizon Terminal Agents mit Reinforcement Learning: Terminal-Bench-RL

2025-07-29
Training von Long-Horizon Terminal Agents mit Reinforcement Learning: Terminal-Bench-RL

Dieses Projekt beschreibt den Aufbau einer stabilen RL-Trainingsinfrastruktur, die auf 4 Knoten auf 32 H100-GPUs skaliert, um Terminal-basierte Coding-Agents mit langem Horizont zu trainieren. Der Autor entwickelte Terminal-Agent-Qwen3-32b, der die höchste Punktzahl auf Terminal-Bench für Qwen3-Agents erreichte, *ohne* Training! Basierend auf dem rLLM-Framework umfasst es benutzerdefinierte Umgebungen und Infrastruktur. Mit einem Rechenaufwand von ca. 1 Million US-Dollar erreichte der Agent den 19. Platz in der Terminal-Bench-Rangliste und übertraf mehrere Top-Agents von Stanford und OpenAI. Eine ausgefeilte System-Prompt und benutzerdefinierte Tools steuern das Verhalten des Agents. Obwohl ein vollständiger Trainingslauf kostspielig war, werden der Code und der Datensatz bereitgestellt, um weitere Forschung mit erhöhten Rechenressourcen zu ermöglichen.

Entwicklung Terminal-Agent