s1: 강력한 추론 성능을 위한 간단한 테스트 시간 스케일링
2025-02-03
본 논문에서는 s1이라는 간단한 테스트 시간 스케일링 방법을 소개합니다. 단 1,000개의 예제와 예산 제약만으로 o1-preview와 동등한 강력한 추론 성능을 달성합니다. 이 방법은 영리한 테스트 시간 전략을 통해 대규모 언어 모델의 성능을 크게 향상시킵니다. 코드와 데이터는 오픈소스로 공개되어 재현성과 추가적인 연구를 용이하게 합니다.