聊天机器人失去创造力:语言模型去偏见的代价

2024-06-17

大型语言模型(LLM)虽然革新了自然语言处理领域,但也存在偏见和生成有害内容的风险。文章研究发现,采用强化学习人类反馈(RLHF)等校准技术虽然能减少这些问题,但也会降低模型的创造力,即语法和语义多样性。文章通过对 Llama-2 系列模型进行的实验,揭示了校准后的模型在标记预测中熵值较低,嵌入空间中形成独特的聚类,并倾向于“吸引子状态”,表明输出多样性有限。

51
未分类 去偏见