LLM, 실제 세계 사실 확인에서 실패: 능력의 현저한 차이
2025-06-05
저자는 ADHD 치료 약물의 장기적 효과에 대한 복잡한 실제 세계 사실 확인 작업에서 여러 대규모 언어 모델(LLM)을 테스트했습니다. 결과는 성능에 큰 차이가 있음을 보여주었습니다. 일부 LLM은 실제 세계 문서를 정확하게 인용하고 요약했지만, 다른 LLM은 심각한 '링크 환각'과 출처 오류를 겪었습니다. 저자는 현재 LLM 테스트 방법이 너무 단순하여 복잡한 정보를 처리하는 능력을 충분히 평가할 수 없다고 주장하며, 이 중요한 문제에 대한 더 많은 관심을 촉구합니다.
더 보기
AI
AI 능력 차이