Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

日本研究团队发布基于“富岳”超级计算机训练的大型语言模型“Fugaku-LLM”

2024-05-13

日本的研究团队发布了名为“Fugaku-LLM”的大型语言模型，该模型利用日本超级计算机“富岳”进行训练，具有更强的日语能力。研究团队开发了分布式训练方法，包括将深度学习框架Megatron-DeepSpeed移植到“富岳”上，以优化Transformer在“富岳”上的性能。Fugaku-LLM拥有130亿个参数，比日本广泛开发的70亿参数模型更大，在日语MT-Bench上取得了平均5.5分的成绩，是日本使用原始数据训练的开放模型中性能最高的。Fugaku-LLM的源代码可在GitHub上获得，模型可在Hugging Face上获得，可用于研究和商业用途。

(www.fujitsu.com)

未分类富岳