임베딩 차원: 300에서 4096으로, 그리고 그 너머
2025-09-08

몇 년 전만 해도 200~300차원의 임베딩이 일반적이었습니다. 하지만 BERT와 GPT 같은 심층 학습 모델의 등장과 GPU 컴퓨팅의 발전으로 임베딩 차원은 폭발적으로 증가했습니다. BERT의 768차원에서 GPT-3의 1536차원, 그리고 현재 4096차원 이상으로 진화하고 있습니다. 이는 아키텍처 변경(Transformer), 더욱 대규모의 학습 데이터셋, Hugging Face와 같은 플랫폼의 부상, 벡터 데이터베이스의 발전에 의해 추진되고 있습니다. 차원 수 증가는 성능 향상을 가져오지만, 저장 및 추론의 과제도 발생합니다. 최근 연구에서는 Matryoshka 학습과 같은 더 효율적인 임베딩 표현이 모색되고 있으며, 성능과 효율의 균형을 목표로 하고 있습니다.
AI
모델 차원