Webtagr - テクノロジーニュースダイジェスト

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

LLM対決：130件のプロンプトによる現実的な評価

2025-08-24

著者は、プログラミング、システム管理タスク、技術的な説明、創造的なプロンプトの4つのカテゴリにわたり、bash履歴から130件のプロンプトを使用して、12以上のLLMの現実的な評価を行いました。オープンソースモデルは、Gemini 2.5 Proなどのクローズドソースオプションと比較して、精度、速度、コスト効率において常に優れていました。著者は、高速で安価なオープンソースモデルの組み合わせを使用し、必要に応じてより強力なクローズドソースモデルを補足することで結論付けました。

(darkcoding.net)

AI パフォーマンス評価