대규모 언어 모델의 장편 창작 능력 벤치마크

2025-04-10

이 벤치마크는 대규모 언어 모델의 장편 소설 창작 능력을 평가합니다. 브레인스토밍, 수정, 8개의 1000단어 장의 작성을 평가합니다. 지표에는 장의 길이, 유창성(과도하게 사용된 구문 회피), 반복, 장 전반에 걸친 작성 품질 저하가 포함됩니다. 최종 점수(0~100)는 평가용 LLM에 의해 할당됩니다.

(eqbench.com)

AI 장편 창작

트럼프의 경제적 혼란과 IRS 축소

AI 기반 날씨 번역 중단, 인명 위험 초래