别滥用余弦相似度! 2025-01-14 本文探讨了在数据科学中过度依赖余弦相似度进行向量比较的风险。作者指出,虽然余弦相似度计算简单,但它往往无法捕捉到语义上的相似性,容易受到表面模式(如写作风格和错别字)的干扰。文章通过具体的例子说明了这个问题,并提出了几种改进方法,包括:直接使用LLM进行比较、微调或迁移学习以创建特定任务的嵌入、预提示工程以及文本预处理。作者强调,应该根据实际需求选择合适的相似度度量方法,避免盲目使用余弦相似度。 (p.migdal.pl) AI 向量比较