日本研究团队发布基于“富岳”超级计算机训练的大型语言模型“Fugaku-LLM”
2024-05-13
日本的研究团队发布了名为“Fugaku-LLM”的大型语言模型,该模型利用日本超级计算机“富岳”进行训练,具有更强的日语能力。研究团队开发了分布式训练方法,包括将深度学习框架Megatron-DeepSpeed移植到“富岳”上,以优化Transformer在“富岳”上的性能。Fugaku-LLM拥有130亿个参数,比日本广泛开发的70亿参数模型更大,在日语MT-Bench上取得了平均5.5分的成绩,是日本使用原始数据训练的开放模型中性能最高的。Fugaku-LLM的源代码可在GitHub上获得,模型可在Hugging Face上获得,可用于研究和商业用途。
43
未分类
富岳