Webtagr - 科技资讯摘要

Cerebras如何解决超大芯片良率难题？

2025-01-15

Cerebras公司成功制造并商业化了比现有最大计算机芯片大50倍的芯片，同时保持了可比的良率。他们通过重新思考芯片尺寸和容错性之间的关系来实现这一目标。通过将Cerebras晶圆级引擎与H100尺寸芯片进行比较，文章揭示了其核心技术：极小的AI核心（仅为H100的1%）和复杂的路由架构，允许系统绕过缺陷并利用冗余通信路径。这种方法实现了高达93%的硅利用率，证明了晶圆级计算的可行性和商业价值。

(cerebras.ai)

硬件容错计算

Cerebras推理平台运行Llama 3.1 405B模型速度达969 tokens/s

2024-11-19

Cerebras宣布其推理平台运行Llama 3.1 405B模型的速度达到969 tokens/s，创下新纪录，比GPT-4o快12倍，比Claude 3.5 Sonnet快18倍。该平台在128K上下文长度下实现了最高性能和最短的首个token延迟。Cerebras表示，这是第一个以即时速度运行的前沿模型，允许文本、代码和数学页面快速完成。此外，Cerebras公布了Llama 3.1 405B推理服务的定价，并强调了对开源AI运动的支持。

(cerebras.ai)

18

未分类 Llama 3.1 405B

Cerebras推理速度提升三倍：Llama3.1-70B突破每秒2100个Token

2024-10-25

Cerebras宣布其推理引擎速度提升三倍，Llama3.1-70B模型的处理速度达到每秒2100个token。这一速度比之前的版本提升了3倍，比最快的GPU解决方案快16倍，比运行Llama3.1-3B模型的GPU快8倍。Cerebras将速度提升归功于软件、硬件和机器学习方面的多项改进，包括优化关键内核、简化晶圆输入输出以及实施推测解码等技术。快速推理对于实时AI应用至关重要，Cerebras推理引擎已被用于药物发现和语音AI等领域。

(cerebras.ai)

35

未分类 Llama模型

Cerebras推出全球最快AI推理

2024-08-28

Cerebras Systems 推出了 Cerebras Inference，号称是世界上最快的 AI 推理解决方案，其速度比超大规模云中的 NVIDIA GPU 解决方案快 20 倍，价格仅为其几分之一。Cerebras Inference 提供每百万 token 10 美分的起步价，并保持 16 位精度，以实现最先进的精度。Cerebras 与多家公司建立了战略合作伙伴关系，以加速人工智能的开发和应用。

(cerebras.ai)

51

未分类 AI推理 Cerebras