Webtagr - テクノロジーニュースダイジェスト

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

プロンプトエンジニアリングを超えて：強力なAIエージェントのためのコンテキストエンジニアリング

2025-07-01

コンテキストエンジニアリングは、AIの新たなフロンティアとして台頭しており、単純なプロンプトエンジニアリングを超えています。これは、LLM（大規模言語モデル）に包括的なコンテキスト情報を提供し、問題を効果的に解決することに焦点を当てています。この記事では、AIエージェントの成功はモデルの能力だけでなく、コンテキストの質に左右されると主張しています。コンテキストエンジニアリングには、初期指示、ユーザープロンプト、短期記憶、長期記憶、外部情報検索、利用可能なツール、構造化された出力などが含まれます。メールから会議をスケジュールするなど、成功したAIエージェントは、カレンダーデータ、メール履歴、連絡先情報を統合して、ロボットのような反応ではなく、人間らしい反応を生成する必要があります。この記事では、コンテキストエンジニアリングは、LLMがタスクを実行できるように、適切な情報とツールを適切なタイミングで提供する動的なシステムであり、堅牢で信頼性の高いAIエージェントを構築するための鍵であると強調しています。

DeepSeek R1：複雑な推論タスクでOpenAIに挑むオープンソースモデル

2025-01-31

DeepSeek R1は、複雑な推論タスクにおいてOpenAIのモデルに挑戦するオープンソースモデルです。グループ相対方策最適化（GRPO）と強化学習に焦点を当てた多段階トレーニングアプローチを用いており、モデルだけでなく、その開発の詳細を説明した研究論文も公開されました。論文では、トレーニング中にモデルが人間のフィードバックなしに、初期アプローチを再評価することで問題に多くの思考時間を割り当てることを学んだ「ひらめき」の瞬間について説明しています。このブログ記事では、GRPOとカウントダウンゲームを使用してこの「ひらめき」の瞬間を再現し、自己検証と検索能力を学ぶオープンモデルをトレーニングします。GRPOとTRLの学習を容易にするため、インタラクティブなJupyter Notebookコード、マルチGPUノードまたはSLURMクラスタでの分散トレーニングのためのスクリプトと手順を提供しています。