코사인 유사도를 함부로 사용하지 마세요!

2025-01-14
코사인 유사도를 함부로 사용하지 마세요!

이 글에서는 데이터 과학에서 벡터 비교에 코사인 유사도를 과도하게 사용하는 위험성을 다룹니다. 저자는 코사인 유사도는 계산이 간편하지만 종종 의미론적 유사성을 포착하지 못하고, 문체나 오타와 같은 표면적인 패턴에 쉽게 현혹될 수 있다고 주장합니다. 이 글에서는 이 문제를 예시로 설명하고, 몇 가지 개선된 방법을 제안합니다. 구체적으로는, LLM을 직접 비교에 사용하는 것, 작업별 임베딩을 생성하기 위한 미세 조정이나 전이 학습, 프롬프트 엔지니어링, 텍스트 전처리 등입니다. 저자는 코사인 유사도를 무분별하게 사용하는 대신 특정 요구 사항에 따라 적절한 유사도 측정 방법을 선택하는 것이 중요하다고 강조합니다.