LLM対決:130件のプロンプトによる現実的な評価
2025-08-24
著者は、プログラミング、システム管理タスク、技術的な説明、創造的なプロンプトの4つのカテゴリにわたり、bash履歴から130件のプロンプトを使用して、12以上のLLMの現実的な評価を行いました。オープンソースモデルは、Gemini 2.5 Proなどのクローズドソースオプションと比較して、精度、速度、コスト効率において常に優れていました。著者は、高速で安価なオープンソースモデルの組み合わせを使用し、必要に応じてより強力なクローズドソースモデルを補足することで結論付けました。
続きを読む
AI
パフォーマンス評価