LLM의 코드 생성 능력 평가: MultiCodeBench 등장
2024-12-30

코드를 다루는 대규모 언어 모델(LLM) 기반 AI 프로그래밍 어시스턴트의 보급으로 개발자 생산성이 크게 향상되었습니다. 하지만 기존 코드 생성 벤치마크는 주로 범용 시나리오에 초점을 맞추고 있어 특정 애플리케이션 도메인에서 LLM의 성능은 거의 알려지지 않았습니다. 본 논문에서는 12개의 인기 소프트웨어 개발 도메인과 15개의 프로그래밍 언어를 포괄하는 2400개의 프로그래밍 작업으로 구성된 새로운 벤치마크인 MultiCodeBench를 소개합니다. 11개의 주요 LLM을 사용한 실험을 통해 다양한 도메인에서 LLM의 코드 생성 능력이 밝혀졌으며, 개발자가 LLM을 선택하는 데 실질적인 통찰력과 모델 개발자가 도메인 특정 코드 생성 능력을 향상시키기 위한 지침을 얻을 수 있습니다.
개발
벤치마크