LLM驱动AI客服表现不及预期:保密性成最大隐患
2025-06-16
Salesforce研究团队开发的新基准测试CRMArena-Pro显示,大型语言模型(LLM)驱动的AI客服代理在标准CRM测试中的表现低于预期。单步任务成功率约为58%,多步任务成功率骤降至35%。更令人担忧的是,这些AI代理对客户信息的保密性意识低,常常影响任务执行。该研究强调了现有基准测试的不足,并指出LLM在实际企业场景中的应用仍存在巨大差距,这可能会让依赖AI客服的企业和开发者感到担忧。
AI
AI客服