¡No uses la similitud de coseno descuidadamente!
Este artículo explora los riesgos de depender demasiado de la similitud de coseno para las comparaciones vectoriales en la ciencia de datos. El autor argumenta que, aunque computacionalmente simple, la similitud de coseno a menudo falla en capturar la similitud semántica y puede ser fácilmente engañada por patrones superficiales como el estilo de escritura y los errores tipográficos. El artículo utiliza ejemplos para ilustrar este problema y propone varios métodos mejorados, incluyendo: usar directamente LLMs para la comparación, ajuste fino o aprendizaje por transferencia para crear incrustaciones específicas de la tarea, ingeniería de prompts previos y preprocesamiento de texto. El autor enfatiza la importancia de elegir métricas de similitud apropiadas según las necesidades específicas, en lugar de usar ciegamente la similitud de coseno.