文章探讨了分词器在基于检索增强生成(RAG)的AI应用中的重要性。作者指出,开发者往往忽视了分词器对模型性能的影响,尤其是在处理包含emoji、拼写错误、日期、货币等特殊情况时。文章以MiniLM-L6-v2和OpenAI的tiktoken为例,比较了不同分词器在处理这些情况时的差异,并强调了标准化输入文本格式的重要性。作者认为,虽然分词器是RAG应用中不可或缺的一部分,但未来应该出现更先进的技术来解决当前分词器面临的挑战。