s1: Escalado Simple en Tiempo de Prueba para un Razonamiento Sólido

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

s1: Escalado Simple en Tiempo de Prueba para un Razonamiento Sólido

2025-02-03

Este artículo presenta s1, un método simple de escalado en tiempo de prueba que logra un rendimiento de razonamiento sólido que coincide con o1-preview utilizando solo 1000 ejemplos y forzado de presupuesto. El método mejora significativamente el rendimiento en los modelos de lenguaje grandes a través de estrategias inteligentes en tiempo de prueba. El código y los datos son de código abierto para la reproducibilidad y la exploración adicional.

(github.com)

IA rendimiento de razonamiento escalado en tiempo de prueba

Rascarse la picazón: la ciencia sorprendente detrás

Jóvenes vinculados a Musk se infiltran en agencias gubernamentales de EE. UU.