s1: Escalado Simple en Tiempo de Prueba para un Razonamiento Sólido

2025-02-03
s1: Escalado Simple en Tiempo de Prueba para un Razonamiento Sólido

Este artículo presenta s1, un método simple de escalado en tiempo de prueba que logra un rendimiento de razonamiento sólido que coincide con o1-preview utilizando solo 1000 ejemplos y forzado de presupuesto. El método mejora significativamente el rendimiento en los modelos de lenguaje grandes a través de estrategias inteligentes en tiempo de prueba. El código y los datos son de código abierto para la reproducibilidad y la exploración adicional.