大規模言語モデルのベンチマーク:価格と性能の分析

2025-06-05
大規模言語モデルのベンチマーク:価格と性能の分析

このレポートは、推論、科学、数学、コード生成、多言語能力など、さまざまな分野における大規模言語モデルのベンチマークを評価しています。結果は、タスク全体でのパフォーマンスに大きなばらつきがあることを示しており、科学的および数学的推論では強いパフォーマンスを示していますが、コード生成やロングコンテキスト処理では比較的弱いパフォーマンスを示しています。このレポートでは、価格戦略についても分析し、モデルのパフォーマンスは価格と線形に相関しないことを示しています。