大型语言模型的泛化能力:训练数据之外的挑战

2025-08-12
大型语言模型的泛化能力:训练数据之外的挑战

研究人员测试了大型语言模型(LLM)在超出其训练数据范围的任务类型、格式和长度上的泛化能力。结果显示,当任务与训练数据差异增大时,模型的准确性急剧下降。即使模型能给出正确的答案,其推理过程也可能存在逻辑错误或与答案不符。这表明,LLM的“链式思维”(CoT)推理并非真正理解文本,而是对训练数据中模式的复制。模型在处理长度不同或包含陌生符号的输入时,表现也显著恶化,再次印证了其泛化能力的不足。