N'utilisez pas la similarité cosinus sans précaution !
Cet article explore les risques liés à une dépendance excessive à la similarité cosinus pour les comparaisons vectorielles en science des données. L'auteur soutient que, bien que simple sur le plan computationnel, la similarité cosinus échoue souvent à capturer la similarité sémantique et peut être facilement induite en erreur par des schémas superficiels tels que le style d'écriture et les fautes de frappe. L'article utilise des exemples pour illustrer ce problème et propose plusieurs méthodes améliorées, notamment : l'utilisation directe de LLM pour la comparaison, l'ajustement fin ou l'apprentissage par transfert pour créer des embeddings spécifiques à la tâche, l'ingénierie de prompts préalables et le prétraitement du texte. L'auteur souligne l'importance de choisir des métriques de similarité appropriées en fonction des besoins spécifiques, plutôt que d'utiliser aveuglément la similarité cosinus.