LLM이 성경을 정확하게 기억할 수 있을까?

2024-12-29

이 글에서는 대규모 언어 모델(LLM)이 성경 구절을 정확하게 기억할 수 있는지 조사합니다. 저자는 다양한 규모의 LLM이 구절을 정확하게 재현하는 능력을 평가하기 위해 여섯 가지 테스트를 고안했습니다. 그 결과, 매개변수가 많은 모델(Llama 405B, GPT 4o, Claude Sonnet 등)은 구절과 심지어 전체 장까지 정확하게 재현하는 데 최고의 성과를 거두었습니다. 반면, 매개변수가 적은 모델(70억 매개변수 범위)은 번역을 섞거나 환각적인 텍스트를 생성하는 경우가 많았습니다. 중간 규모의 모델(700억 매개변수 범위)은 일반적으로 의미는 유지했지만, 많은 경우 번역을 섞거나 약간 바꿔 말했습니다. 저자는 성경 구절을 정확하게 인용하려면 매개변수가 많은 모델을 사용하고 실제 성경으로 확인하는 것이 바람직하다고 결론짓습니다.