Cerebras如何解决超大芯片良率难题?

2025-01-15
Cerebras如何解决超大芯片良率难题?

Cerebras公司成功制造并商业化了比现有最大计算机芯片大50倍的芯片,同时保持了可比的良率。他们通过重新思考芯片尺寸和容错性之间的关系来实现这一目标。通过将Cerebras晶圆级引擎与H100尺寸芯片进行比较,文章揭示了其核心技术:极小的AI核心(仅为H100的1%)和复杂的路由架构,允许系统绕过缺陷并利用冗余通信路径。这种方法实现了高达93%的硅利用率,证明了晶圆级计算的可行性和商业价值。

阅读更多
硬件 容错计算

Cerebras推理平台运行Llama 3.1 405B模型速度达969 tokens/s

2024-11-19
Cerebras推理平台运行Llama 3.1 405B模型速度达969 tokens/s

Cerebras宣布其推理平台运行Llama 3.1 405B模型的速度达到969 tokens/s,创下新纪录,比GPT-4o快12倍,比Claude 3.5 Sonnet快18倍。该平台在128K上下文长度下实现了最高性能和最短的首个token延迟。Cerebras表示,这是第一个以即时速度运行的前沿模型,允许文本、代码和数学页面快速完成。此外,Cerebras公布了Llama 3.1 405B推理服务的定价,并强调了对开源AI运动的支持。

阅读更多
未分类 Llama 3.1 405B

Cerebras推理速度提升三倍:Llama3.1-70B突破每秒2100个Token

2024-10-25
Cerebras推理速度提升三倍:Llama3.1-70B突破每秒2100个Token

Cerebras宣布其推理引擎速度提升三倍,Llama3.1-70B模型的处理速度达到每秒2100个token。这一速度比之前的版本提升了3倍,比最快的GPU解决方案快16倍,比运行Llama3.1-3B模型的GPU快8倍。Cerebras将速度提升归功于软件、硬件和机器学习方面的多项改进,包括优化关键内核、简化晶圆输入输出以及实施推测解码等技术。快速推理对于实时AI应用至关重要,Cerebras推理引擎已被用于药物发现和语音AI等领域。

阅读更多
未分类 Llama模型

Cerebras推出全球最快AI推理

2024-08-28
Cerebras推出全球最快AI推理

Cerebras Systems 推出了 Cerebras Inference,号称是世界上最快的 AI 推理解决方案,其速度比超大规模云中的 NVIDIA GPU 解决方案快 20 倍,价格仅为其几分之一。Cerebras Inference 提供每百万 token 10 美分的起步价,并保持 16 位精度,以实现最先进的精度。Cerebras 与多家公司建立了战略合作伙伴关系,以加速人工智能的开发和应用。

阅读更多
未分类 AI推理 Cerebras