2024년 어드벤트 오브 코드에서 LLM의 성능: 놀라운 결과
2024-12-30
이 글에서는 2024년 어드벤트 오브 코드 챌린지에서 여러 주요 대규모 언어 모델(LLM)을 테스트한 실험에 대해 자세히 설명합니다. 놀랍게도 LLM의 성능은 예상보다 훨씬 낮았으며, 작성자보다도 성능이 떨어졌습니다. 간단한 프레임워크를 사용하여 모델에 완전한 문제 설명을 제공하고 실행 가능한 Python 코드를 요청했습니다. 그 결과, 시간 초과 및 예외가 자주 발생하여 LLM은 알려진 문제를 해결하는 데는 뛰어나지만 새로운 문제에는 어려움을 겪는다는 것을 시사했습니다. 이러한 제한은 프로그램 템플릿에 대한 의존성, 부족한 계산 리소스 또는 최적이 아닌 프롬프트 때문일 수 있습니다. 이 실험은 어드벤트 오브 코드가 코딩 에이전트를 평가하기 위한 잠재적인 벤치마크가 될 수 있음을 강조합니다.
더 보기