Não use a similaridade de cosseno descuidadamente!

Este artigo explora os riscos de depender excessivamente da similaridade de cosseno para comparações vetoriais em ciência de dados. O autor argumenta que, embora computacionalmente simples, a similaridade de cosseno frequentemente falha em capturar a similaridade semântica e pode ser facilmente enganada por padrões superficiais, como estilo de escrita e erros de digitação. O artigo usa exemplos para ilustrar esse problema e propõe vários métodos aprimorados, incluindo: usar diretamente LLMs para comparação, ajuste fino ou aprendizado por transferência para criar embeddings específicos da tarefa, engenharia de prompts prévios e pré-processamento de texto. O autor enfatiza a importância de escolher métricas de similaridade apropriadas com base em necessidades específicas, em vez de usar cegamente a similaridade de cosseno.