阿里巴巴发布超大规模MoE模型Qwen2.5-Max
2025-01-28
阿里巴巴发布了其最新的超大规模混合专家模型Qwen2.5-Max,该模型在20万亿token上进行了预训练,并经过监督微调和基于人类反馈的强化学习训练。在MMLU-Pro、LiveCodeBench、LiveBench和Arena-Hard等基准测试中,Qwen2.5-Max的表现优于DeepSeek V3等其他模型,并在Qwen Chat和阿里云API中提供访问。这项工作标志着在扩展大型语言模型方面取得了显著进展,并为未来模型智能的提升铺平了道路。
AI
MoE模型