Cerebras打破Llama 4 Maverick 400B模型推理速度纪录

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

Cerebras打破Llama 4 Maverick 400B模型推理速度纪录

2025-05-31

Cerebras Systems近日宣布，其系统在Meta的Llama 4 Maverick 400B参数模型上实现了超过2500个token/秒的推理速度，远超Nvidia的1000个token/秒，创下新的世界纪录。这一速度提升对于需要快速响应的AI应用，例如智能体、代码生成和复杂推理至关重要，能够显著缩短等待时间，提升用户体验。Cerebras的解决方案无需特殊内核优化即可实现这一性能，并即将通过Meta的API服务提供给所有用户。

(www.cerebras.ai)

辨识无标记铸铁锅：一段收藏家的探秘之旅

YC公司A轮融资：自动化和平台优先