Cerebras推理平台运行Llama 3.1 405B模型速度达969 tokens/s

2024-11-19

Cerebras宣布其推理平台运行Llama 3.1 405B模型的速度达到969 tokens/s,创下新纪录,比GPT-4o快12倍,比Claude 3.5 Sonnet快18倍。该平台在128K上下文长度下实现了最高性能和最短的首个token延迟。Cerebras表示,这是第一个以即时速度运行的前沿模型,允许文本、代码和数学页面快速完成。此外,Cerebras公布了Llama 3.1 405B推理服务的定价,并强调了对开源AI运动的支持。

未分类 Llama 3.1 405B