Cerebras推理平台运行Llama 3.1 405B模型速度达969 tokens/s

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

Cerebras推理平台运行Llama 3.1 405B模型速度达969 tokens/s

2024-11-19

Cerebras宣布其推理平台运行Llama 3.1 405B模型的速度达到969 tokens/s，创下新纪录，比GPT-4o快12倍，比Claude 3.5 Sonnet快18倍。该平台在128K上下文长度下实现了最高性能和最短的首个token延迟。Cerebras表示，这是第一个以即时速度运行的前沿模型，允许文本、代码和数学页面快速完成。此外，Cerebras公布了Llama 3.1 405B推理服务的定价，并强调了对开源AI运动的支持。

(cerebras.ai)

未分类 Llama 3.1 405B

基于 ClickHouse 和 Grafana 构建 SQL 可观测性

GitHub - circlemind-ai/fast-graphrag：智能适应用例、数据和查询的RAG