s1: Escalado Simple en Tiempo de Prueba para un Razonamiento Sólido
2025-02-03
Este artículo presenta s1, un método simple de escalado en tiempo de prueba que logra un rendimiento de razonamiento sólido que coincide con o1-preview utilizando solo 1000 ejemplos y forzado de presupuesto. El método mejora significativamente el rendimiento en los modelos de lenguaje grandes a través de estrategias inteligentes en tiempo de prueba. El código y los datos son de código abierto para la reproducibilidad y la exploración adicional.