Training von Long-Horizon Terminal Agents mit Reinforcement Learning: Terminal-Bench-RL
Dieses Projekt beschreibt den Aufbau einer stabilen RL-Trainingsinfrastruktur, die auf 4 Knoten auf 32 H100-GPUs skaliert, um Terminal-basierte Coding-Agents mit langem Horizont zu trainieren. Der Autor entwickelte Terminal-Agent-Qwen3-32b, der die höchste Punktzahl auf Terminal-Bench für Qwen3-Agents erreichte, *ohne* Training! Basierend auf dem rLLM-Framework umfasst es benutzerdefinierte Umgebungen und Infrastruktur. Mit einem Rechenaufwand von ca. 1 Million US-Dollar erreichte der Agent den 19. Platz in der Terminal-Bench-Rangliste und übertraf mehrere Top-Agents von Stanford und OpenAI. Eine ausgefeilte System-Prompt und benutzerdefinierte Tools steuern das Verhalten des Agents. Obwohl ein vollständiger Trainingslauf kostspielig war, werden der Code und der Datensatz bereitgestellt, um weitere Forschung mit erhöhten Rechenressourcen zu ermöglichen.