Webtagr - Résumé de news de technologie

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

Au-delà de l'ingénierie des invites : l'ingénierie du contexte pour des agents d'IA puissants

2025-07-01

L'ingénierie du contexte émerge comme la prochaine frontière de l'IA, dépassant la simple ingénierie des invites. Elle se concentre sur la fourniture aux LLM d'informations contextuelles complètes pour une résolution efficace des problèmes. L'article soutient que le succès des agents d'IA repose sur la qualité du contexte, et non seulement sur les capacités du modèle. L'ingénierie du contexte englobe les instructions initiales, les invites de l'utilisateur, la mémoire à court terme, la mémoire à long terme, la récupération d'informations externes, les outils disponibles et la sortie structurée. Un agent d'IA performant, comme celui qui planifie des réunions à partir d'e-mails, nécessite des données de calendrier intégrées, l'historique des e-mails et les informations de contact pour générer des réponses humaines au lieu de réponses robotiques. L'article souligne que l'ingénierie du contexte est un système dynamique qui fournit les informations et les outils appropriés au bon moment, garantissant que le LLM peut accomplir sa tâche : la clé pour construire des agents d'IA robustes et fiables.

Lire plus

DeepSeek R1 : un modèle open source qui défie OpenAI dans les tâches de raisonnement complexe

2025-01-31

DeepSeek R1, un modèle open source, relève le défi des modèles d'OpenAI dans les tâches de raisonnement complexe. Utilisant l'optimisation de politique relative de groupe (GRPO) et une approche d'entraînement multi-étapes axée sur l'apprentissage par renforcement, les créateurs ont publié non seulement le modèle, mais aussi un article de recherche détaillant son développement. L'article décrit un "moment eureka" pendant l'entraînement où le modèle a appris à allouer plus de temps de réflexion à un problème en réévaluant son approche initiale, sans retour d'information humain. Ce billet de blog recrée ce "moment eureka" à l'aide de GRPO et du jeu Countdown, en entraînant un modèle ouvert pour apprendre des capacités d'autovérification et de recherche. Un code interactif Jupyter Notebook, ainsi que des scripts et des instructions pour l'entraînement distribué sur des nœuds multi-GPU ou des clusters SLURM, sont fournis pour faciliter l'apprentissage de GRPO et de TRL.

Lire plus