Cerebras打破Llama 4 Maverick 400B模型推理速度纪录
2025-05-31
Cerebras Systems近日宣布,其系统在Meta的Llama 4 Maverick 400B参数模型上实现了超过2500个token/秒的推理速度,远超Nvidia的1000个token/秒,创下新的世界纪录。这一速度提升对于需要快速响应的AI应用,例如智能体、代码生成和复杂推理至关重要,能够显著缩短等待时间,提升用户体验。Cerebras的解决方案无需特殊内核优化即可实现这一性能,并即将通过Meta的API服务提供给所有用户。
AI