코드 생성에 대한 LLM 평가 관련 논문 폭발적 증가

2025-02-11
코드 생성에 대한 LLM 평가 관련 논문 폭발적 증가

최근 arXiv에는 대규모 언어 모델(LLM)의 코드 생성 능력을 벤치마킹하는 논문이 급증하고 있습니다. 이러한 논문들은 LLM이 실제 GitHub 문제 해결, 자기 호출 코드 생성, API 사용, 안정성 분석, 그리고 소프트웨어 개발 라이프사이클 전반에 대한 평가 등 다양한 측면을 다룹니다. 연구자들은 SWE-bench, HumanEval Pro, SEAL, DevEval 등 다양한 벤치마크와 그에 상응하는 지표를 개발하여 LLM의 코드 생성 능력을 더욱 포괄적으로 평가하고 이 분야의 발전을 촉진하고자 합니다.

더 보기
개발