AMD发布Instella:30亿参数的完全开放式语言模型
2025-03-24
AMD发布了Instella,这是一个由128个Instinct MI300X GPU从头训练的,拥有30亿参数的完全开放式语言模型家族。Instella在基准测试中超越了同等规模的完全开放模型,并在性能上与Llama-3.2-3B等最先进的开放权重模型相媲美。该模型的权重、训练配置、数据集和代码均已开源,旨在促进AI社区的合作和创新。Instella采用多阶段训练,包含预训练和指令微调阶段,并使用了FlashAttention-2等高效训练技术。
阅读更多
AI