Anthropic回顧了其负责任的扩展策略(RSP)的实施情况,该策略旨在解决灾难性安全故障和前沿模型的滥用问题。文章重点介绍了识别和测试模型中的“红线能力”、对这些能力做出反应、迭代扩展政策和实施保障机制。Anthropic强调了威胁建模和评估、ASL-3标准、以及保障结构的重要性。文章还分享了在实施RSP过程中遇到的挑战和经验教训,并呼吁行业和政府共同努力,确保前沿模型的负责任训练和部署。