Category: IA

Alliages de modèles : une arme secrète pour booster les performances de l’IA

2025-07-21
Alliages de modèles : une arme secrète pour booster les performances de l’IA

L’équipe XBOW a considérablement amélioré les performances de ses agents de détection de vulnérabilités en utilisant une technique astucieuse appelée « alliages de modèles ». Cette approche tire parti des forces de différents LLM (comme Google Gemini et Anthropic Sonnet), en alternant entre eux au sein d’un seul fil de discussion pour surmonter les limites des modèles individuels. Les expériences ont montré que cette stratégie d’« alliage » a augmenté les taux de réussite à plus de 55 %, surpassant de loin les modèles individuels. Cette technique ne se limite pas à la cybersécurité ; elle est pertinente pour toute tâche d’agent d’IA nécessitant des solutions dans un vaste espace de recherche.

Agents IA : Le battage médiatique vs. la réalité en 2025

2025-07-20
Agents IA : Le battage médiatique vs. la réalité en 2025

Alors que 2025 est présenté comme l’année des agents IA, un développeur chevronné de systèmes IA en production affirme le contraire. Fort d’une année de développement de plus d’une douzaine de systèmes d’agents en production, il met en lumière trois réalités clés souvent négligées : les taux d’erreur exponentiellement croissants dans les workflows à plusieurs étapes ; l’augmentation quadratique des coûts due aux fenêtres de contexte ; et le défi crucial de concevoir des outils et des systèmes de rétroaction efficaces pour les agents. Il soutient que les systèmes d’agents IA performants ne sont pas totalement autonomes, mais intègrent l’IA avec une supervision humaine et de l’ingénierie logicielle traditionnelle, fonctionnant dans des limites définies avec des opérations vérifiables et des mécanismes de restauration. Il prédit que les équipes qui construisent des outils contraints et spécifiques à un domaine, exploitant l’IA pour les tâches complexes tout en conservant le contrôle humain, seront les gagnantes. L’accent doit passer de « tout autonome » à « assistants extrêmement performants avec des limites claires ».

Évolution de l'architecture des LLMs en 2025 : Plongeons au cœur de DeepSeek, OLMo, Gemma, Mistral et Qwen

2025-07-20
Évolution de l'architecture des LLMs en 2025 : Plongeons au cœur de DeepSeek, OLMo, Gemma, Mistral et Qwen

Cet article passe en revue les avancées architecturales des grands modèles de langage (LLMs) en 2025, en se concentrant sur les modèles open-source tels que DeepSeek, OLMo, Gemma, Mistral et Qwen. DeepSeek V3/R1 améliore l'efficacité computationnelle grâce à l'Attention Latente Multi-Têtes (MLA) et au Mixture-of-Experts (MoE). OLMo 2 met l'accent sur le placement de RMSNorm, utilisant Post-Norm et QK-Norm. Gemma 3 utilise l'attention à fenêtre glissante pour réduire les besoins en mémoire. Mistral Small 3.1 équilibre performance et vitesse. Qwen 3 propose des variantes denses et MoE pour plus de flexibilité. SmolLM3 se distingue par sa taille de 3 milliards de paramètres et NoPE (No Positional Embeddings). Enfin, Kimi 2 impressionne par son échelle de billions de paramètres et l'optimiseur Muon. Ces modèles présentent des innovations dans les mécanismes d'attention, la normalisation, le MoE et les optimiseurs, démontrant la diversité et l'évolution continue des architectures de LLM.

CLJ-AGI : Un nouveau benchmark pour l'AGI

2025-07-20

CLJ-AGI propose un nouveau benchmark pour l'Intelligence Artificielle Générale (AGI). Ce benchmark met au défi une IA d'améliorer le langage de programmation Clojure avec des fonctionnalités telles qu'une conception privilégiant les transducers, une paresse facultative, des protocoles omniprésents et des structures de données CRDT de première classe. Le succès, défini comme la réalisation de ces améliorations tout en maintenant la compatibilité descendante avec le code Clojure existant, rapporte une récompense substantielle, marquant une étape importante vers une véritable AGI.

IA

LLM locaux vs. Wikipédia hors ligne : Comparaison de taille

2025-07-20

Un article de MIT Technology Review a lancé un débat sur l’utilisation de LLM hors ligne dans un scénario apocalyptique. Cela a incité l’auteur à comparer la taille des LLM locaux et des téléchargements de Wikipédia hors ligne. Les résultats ont montré que les petits LLM locaux (comme Llama 3.2 3B) ont à peu près la même taille qu’une sélection de 50 000 articles Wikipédia, tandis que la version complète de Wikipédia est beaucoup plus volumineuse que les plus grands LLM. Bien que leurs objectifs diffèrent, cette comparaison révèle un contraste intéressant en termes d’espace de stockage entre les LLM locaux et les bases de connaissances hors ligne.

IA

L'échec de Zuckerberg à attirer les employés d'OpenAI avec des offres à 100 millions de dollars

2025-07-20
L'échec de Zuckerberg à attirer les employés d'OpenAI avec des offres à 100 millions de dollars

Mark Zuckerberg, PDG de Meta, a tenté d'attirer les employés de ChatGPT vers son équipe IA avec des offres allant jusqu'à 100 millions de dollars, selon Sam Altman, PDG d'OpenAI. Malgré ces offres exorbitantes, l'opération de recrutement a largement échoué. Altman a révélé dans un podcast que les employés d'OpenAI ont privilégié le rôle de leader de l'entreprise dans le développement de la superintelligence. L'incident met en lumière la concurrence acharnée pour les talents en IA et l'attrait du domaine de la superintelligence.

IA

Les LLM restent en deçà lors de l'IMO 2025 : les performances de niveau médaille restent hors de portée

2025-07-19

Des chercheurs ont évalué cinq modèles linguistiques de grande taille (LLM) de pointe sur les problèmes de l'Olympiade internationale de mathématiques (IMO) 2025 à l'aide de la plateforme MathArena. Gemini 2.5 Pro a obtenu les meilleurs résultats, atteignant seulement un score de 31 % (13 points), bien en deçà des 19 points nécessaires pour une médaille de bronze. Les autres modèles ont été significativement moins performants. Une stratégie de sélection « meilleur de 32 » a été utilisée, générant et évaluant plusieurs réponses par problème, ce qui a considérablement augmenté le coût de calcul. Malgré cela, les résultats montrent un écart important entre les LLM actuels et les performances de niveau médaille sur des problèmes mathématiques extrêmement difficiles comme ceux de l'IMO, même avec des ressources informatiques considérables. L'analyse qualitative a révélé des problèmes tels que des modèles citant des théorèmes inexistants et fournissant des réponses trop concises.

Accords HALO : Un nouveau modèle d’acquisition dans l’IA

2025-07-19
Accords HALO : Un nouveau modèle d’acquisition dans l’IA

Une nouvelle structure d’accord a émergé dans l’industrie de l’IA : l’accord HALO. Contrairement aux acquisitions traditionnelles ou aux simples embauches, les accords HALO impliquent qu’une entreprise embauche l’équipe principale d’une startup et obtient simultanément une licence de sa propriété intellectuelle. La startup reçoit des honoraires de licence importants distribués aux investisseurs et aux employés, et continue d’opérer sous une nouvelle direction. Ces transactions sont rapides, coûteuses et (actuellement) exclusives à l’IA. Bien qu’elles suscitent des débats, les accords HALO tentent de préserver le contrat social entre les fondateurs, les investisseurs et les employés, en offrant un moyen rapide et sûr d’acquérir des talents dans le domaine de l’IA dans un contexte de fusions et acquisitions de plus en plus scrutées.

La psilocybine montre des résultats prometteurs dans le traitement de la dépression et de l'anxiété chez les patients atteints de cancer

2025-07-18

Un essai croisé en double aveugle a étudié les effets de la psilocybine, un hallucinogène classique, chez 51 patients atteints d'un cancer mettant leur vie en danger et présentant des symptômes de dépression et/ou d'anxiété. Des doses élevées de psilocybine ont significativement réduit la dépression et l'anxiété, évaluées par les cliniciens et les patients eux-mêmes, améliorant la qualité de vie, le sens de la vie et l'optimismo, tout en diminuant l'anxiété liée à la mort. Ces effets positifs ont perduré lors du suivi à 6 mois, environ 80 % des participants montrant des améliorations cliniquement significatives. L'étude souligne le rôle médiateur des expériences de type mystique induites par la psilocybine dans l'obtention de résultats thérapeutiques.

Meta continue de piller des talents IA chez Apple : l’équipe de modèles fondamentaux d’Apple en difficulté

2025-07-18
Meta continue de piller des talents IA chez Apple : l’équipe de modèles fondamentaux d’Apple en difficulté

Meta a débauché deux autres cadres clés de l'intelligence artificielle chez Apple, après le recrutement très médiatisé d'un dirigeant de l'IA avec un important package de rémunération. Les dernières recrues proviennent de l'équipe des modèles fondamentaux d'Apple, responsable de fonctionnalités telles que les résumés d'e-mails et les notifications prioritaires. Cette dernière fuite de talents suggère des défis internes importants au sein de la division IA d'Apple, ce qui pourrait conduire à un passage à l'utilisation de modèles externes d'entreprises comme OpenAI pour alimenter Siri et d'autres fonctionnalités.

IA

Apple dévoile de nouveaux modèles linguistiques fondamentaux multilingues et multimodaux

2025-07-18
Apple dévoile de nouveaux modèles linguistiques fondamentaux multilingues et multimodaux

Apple a présenté deux nouveaux modèles linguistiques fondamentaux multilingues et multimodaux qui alimentent les fonctionnalités d'intelligence sur ses appareils et serveurs. Un modèle embarqué d'environ 3 milliards de paramètres, optimisé pour la puce Apple Silicon, et un modèle serveur évolutif basé sur un nouveau transformateur Parallel-Track Mixture-of-Experts (PT-MoE). Les deux ont été entraînés sur des ensembles de données multilingues et multimodales massifs, affinés par apprentissage supervisé et par renforcement. Ils prennent en charge davantage de langues, la compréhension d'images et les appels d'outils, égalant ou surpassant les modèles open source comparables. Un nouveau framework centré sur Swift simplifie l'intégration pour les développeurs.

L'hypothèse de la représentation platonicienne : vers une inversion universelle des plongements et la communication avec les baleines

2025-07-18
L'hypothèse de la représentation platonicienne : vers une inversion universelle des plongements et la communication avec les baleines

Des chercheurs ont découvert que les grands modèles de langage convergent vers un espace de représentation sous-jacent partagé à mesure qu'ils grandissent, un phénomène appelé « hypothèse de la représentation platonicienne ». Cela suggère que différents modèles apprennent les mêmes caractéristiques, quelle que soit l'architecture. L'article utilise le jeu « Mussolini ou pain » comme analogie pour expliquer cette représentation partagée et le soutient davantage par la théorie de la compression et la capacité de généralisation du modèle. De manière critique, sur la base de cette hypothèse, les chercheurs ont développé vec2vec, une méthode de conversion non supervisée entre les espaces d'intégration de différents modèles, atteignant une inversion d'intégration de texte de haute précision. Les applications futures pourraient inclure le décodage de textes anciens (comme le linéaire A) ou la traduction du langage des baleines, ouvrant de nouvelles possibilités pour la compréhension interlinguistique et l'avancement de l'IA.

Le Chat reçoit une mise à jour majeure : mode Recherche approfondie, mode vocal et plus encore

2025-07-17
Le Chat reçoit une mise à jour majeure : mode Recherche approfondie, mode vocal et plus encore

L'assistant IA Le Chat de Mistral AI a reçu une mise à jour majeure avec de nouvelles fonctionnalités puissantes. Le mode Recherche approfondie permet des recherches structurées et approfondies ; le mode vocal permet l'interaction vocale ; et le raisonnement multilingue natif facilite la commutation et le raisonnement fluides entre les langues. Des fonctionnalités avancées d'édition d'images et des fonctionnalités d'organisation de projets améliorent encore l'expérience utilisateur. Ces mises à jour rendent Le Chat plus puissant et plus convivial, offrant une expérience d'assistance IA plus efficace.

IA

Piratage de Claude : Exploitation des risques compositionnels dans les LLM

2025-07-17
Piratage de Claude : Exploitation des risques compositionnels dans les LLM

Le chercheur en sécurité Golan Yosef a réussi à exécuter du code sur l'application de bureau Claude d'Anthropic en utilisant un e-mail Gmail conçu, non pas en exploitant des vulnérabilités dans l'application elle-même, mais en tirant parti des capacités et des mécanismes de confiance de Claude. Grâce à un processus itératif impliquant Claude, le chercheur a guidé le LLM pour affiner sa stratégie d'attaque, contournant finalement sa sécurité intégrée. Cela met en évidence le risque compositionnel critique dans GenAI, où des composants individuels sécurisés peuvent créer des systèmes non sécurisés lorsqu'ils sont combinés. La recherche souligne la nécessité d'évaluations de sécurité complètes des applications basées sur LLM pour faire face à ce nouveau vecteur d'attaque.

Anthropic's Claude : Le Dropbox de l'ère de l'IA générative ?

2025-07-16
Anthropic's Claude : Le Dropbox de l'ère de l'IA générative ?

Cet article examine la plateforme Claude d'Anthropic et sa fonctionnalité Artifacts, qui permet aux utilisateurs de créer des applications web alimentées par l'IA sans codage. L'auteur compare Claude à Dropbox à l'ère de l'IA générative car il résout les problèmes de clés API, de déploiement et d'authentification pour les utilisateurs créant et partageant des applications d'IA. De manière intelligente, la monétisation se fait via les abonnements Claude existants des utilisateurs, sans aucun coût pour les créateurs d'applications. L'auteur soutient que ce modèle est hautement précieux et envisage une monétisation future via des options de paiement simples.

IA

H-Nets : Une architecture de réseau hiérarchique surpassant les Transformers

2025-07-16
H-Nets : Une architecture de réseau hiérarchique surpassant les Transformers

Les architectures IA actuelles traitent toutes les entrées de la même manière, sans exploiter la nature hiérarchique inhérente de l'information. Cela limite leur capacité d'apprentissage à partir de données brutes haute résolution. Les chercheurs présentent H-Nets, une nouvelle architecture modélisant nativement la hiérarchie directement à partir des données brutes. Le cœur de H-Nets est un mécanisme de segmentation dynamique qui segmente et compresse les données brutes en concepts significatifs. Les expériences montrent que H-Nets surpasse les Transformers de pointe en modélisation du langage, affichant une meilleure évolutivité et robustesse, ouvrant la voie à une compréhension multimodale, un raisonnement à long contexte et un entraînement et une inférence efficaces.

Voxtral : Des modèles de compréhension de la parole open source révolutionnent l'interaction homme-machine

2025-07-16
Voxtral : Des modèles de compréhension de la parole open source révolutionnent l'interaction homme-machine

Voxtral a publié deux modèles de pointe de compréhension de la parole : une variante de 24 milliards de paramètres pour la production et une variante de 3 milliards de paramètres pour les déploiements en périphérie, toutes deux sous licence Apache 2.0. Ces modèles offrent une précision de transcription supérieure, gèrent l’audio long (jusqu’à 40 minutes), intègrent des fonctionnalités de questions-réponses et de résumé, et proposent une prise en charge multilingue native. De manière significative, Voxtral surpasse les API comparables en termes de coût, rendant l’intelligence vocale de haute qualité accessible et contrôlable à grande échelle. Elle comble le fossé entre les systèmes open source avec des taux d’erreur élevés et les API propriétaires coûteuses, offrant des capacités d’appel de fonctions qui traduisent directement les commandes vocales en actions système. Voxtral est prête à révolutionner l’interaction homme-machine.

IA

Réflexions d'un ancien employé d'OpenAI : Culture et défis de l'hypercroissance

2025-07-16
Réflexions d'un ancien employé d'OpenAI : Culture et défis de l'hypercroissance

Un ancien employé d'OpenAI partage ses réflexions après un an passé au sein de l'entreprise. Il décrit l'impact culturel de la croissance rapide d'OpenAI, passée de 1 000 à 3 000 employés, en soulignant les défis liés à la communication, à la structure organisationnelle et aux lancements de produits. La communication interne repose entièrement sur Slack, la gestion est horizontale et l'entreprise valorise l'action et les résultats. Sa participation au lancement de Codex a mis en lumière l'excitation de créer un produit à partir de rien en 7 semaines, mais aussi les problèmes de code et d'infrastructure résultant de cette croissance rapide. L'auteur conclut en résumant ses enseignements chez OpenAI et en suggérant qu'intégrer un grand laboratoire d'IA est une option viable pour les fondateurs, alors que la course à l'AGI s'intensifie avec OpenAI, Anthropic et Google en tête.

IA

Boucle de rêverie des LLM : le prix de l’innovation révolutionnaire ?

2025-07-16
Boucle de rêverie des LLM : le prix de l’innovation révolutionnaire ?

Malgré leurs capacités impressionnantes, les grands modèles de langage (LLM) n’ont pas encore produit d’innovation véritablement révolutionnaire. L’auteur propose que cela est dû à l’absence d’un mécanisme de traitement en arrière-plan semblable au réseau en mode par défaut du cerveau humain. Pour y remédier, il suggère une « boucle de rêverie » (DDL) : un processus en arrière-plan qui échantillonne continuellement des paires de concepts à partir de la mémoire, explore les liens non évidents et filtre les idées précieuses, créant ainsi une boucle de rétroaction composée. Bien que coûteux en termes de calcul, cet « impôt sur la rêverie » pourrait être le prix à payer pour l’innovation et constituer un avantage concurrentiel. En fin de compte, les LLM coûteux qui « rêvent » pourraient principalement servir à générer des données d’entraînement pour la prochaine génération de modèles efficaces, contournant ainsi le mur de données qui se profile.

Cogency : des agents d'IA en 3 lignes de code qui fonctionnent simplement

2025-07-15
Cogency : des agents d'IA en 3 lignes de code qui fonctionnent simplement

Cogency est un framework de raisonnement en plusieurs étapes qui simplifie la création d'agents d'IA. Il détecte automatiquement les fournisseurs tels qu'OpenAI, Anthropic et Google, achemine intelligemment les outils et diffuse un raisonnement transparent. Avec seulement trois lignes de code, vous pouvez construire un agent fonctionnel. Cogency possède des outils intégrés, tels qu'une calculatrice, un vérificateur météo, un outil de fuseau horaire et une recherche web, ainsi que des traces d'exécution détaillées pour le débogage. Extensible avec des outils et des LLM personnalisés.

Le laboratoire de superintelligence de Meta envisage d'abandonner son modèle d'IA open source

2025-07-15
Le laboratoire de superintelligence de Meta envisage d'abandonner son modèle d'IA open source

Le nouveau laboratoire de superintelligence de Meta débat d'une possible révision de sa stratégie d'IA, envisageant peut-être d'abandonner son puissant modèle open source, Behemoth. Selon le New York Times, des discussions internes suggèrent un passage à un modèle closed-source, un changement significatif par rapport à l'approche open-source traditionnelle de Meta. Behemoth, un modèle « frontière », a été achevé mais son lancement a été retardé en raison de problèmes de performance, et les tests ont depuis été interrompus. Toute décision nécessitera l'approbation du PDG Mark Zuckerberg.

IA

Cognition acquiert Windsurf : Un nouveau chapitre pour l’édition de code avec IA

2025-07-15
Cognition acquiert Windsurf : Un nouveau chapitre pour l’édition de code avec IA

Cognition a annoncé l’acquisition de Windsurf, le créateur d’un IDE agent. L’acquisition inclut la propriété intellectuelle, le produit, la marque, le solide business et, surtout, son équipe de classe mondiale. Windsurf continuera ses opérations, et Cognition investira dans l’intégration des capacités de Windsurf dans ses produits. Cette mesure vise à accélérer l’avenir de l’ingénierie logicielle, en combinant Devin de Cognition (un agent totalement autonome) avec l’IDE de Windsurf et une solide stratégie de mise sur le marché pour une synergie puissante. Tous les employés de Windsurf bénéficieront de conditions généreuses, notamment une participation financière, la suppression des conditions de vesting et un vesting entièrement accéléré.

IA

Les LLM échouent avec grâce : les performances en contexte long se dégradent même dans les tâches simples

2025-07-15
Les LLM échouent avec grâce : les performances en contexte long se dégradent même dans les tâches simples

Cette recherche remet en question l'hypothèse courante selon laquelle les grands modèles de langage (LLM) offrent des performances uniformes sur les tâches à long contexte. En étendant le benchmark Needle in a Haystack et en introduisant des variables telles que la correspondance sémantique et les distracteurs, les chercheurs ont constaté que, même dans des conditions simplifiées, les performances du modèle se dégradent à mesure que la longueur de l'entrée augmente. Cela a été confirmé dans le cadre de questions-réponses conversationnelles et d'une tâche de réplication de mots répétés, révélant les limites des capacités de contexte long des LLM et suggérant des défis potentiels dans les applications du monde réel.

Martin : L'assistant IA qui surpasse Siri et Alexa

2025-07-15
Martin : L'assistant IA qui surpasse Siri et Alexa

Martin est un assistant personnel IA révolutionnaire accessible par SMS, appel ou e-mail. Il gère votre boîte de réception, votre calendrier, vos tâches, vos notes, vos appels et vos rappels. En 5 mois, Martin a accompli plus de 500 000 tâches pour 30 000 utilisateurs, avec une croissance hebdomadaire de 10 %. Soutenu par des investisseurs de premier plan comme Y Combinator et Pioneer Fund, ainsi que des business angels renommés, l'équipe agile de Martin recherche des ingénieurs IA et des ingénieurs produit ambitieux pour créer le prochain produit grand public révolutionnaire.

Combattre l'inévitable de la technologie : nous avons encore le choix

2025-07-15

Cet article analyse comment les leaders technologiques utilisent « l'inévitable » – l'affirmation qu'un avenir dominé par l'IA est inévitable – pour façonner le discours public. En traçant un parallèle avec un débat avec un adversaire habile, l'auteur montre comment cette stratégie cadre la conversation pour des conclusions préordonnées, en réduisant au silence la dissidence. L'article critique les déclarations de personnalités comme Zuckerberg, Ng et Rometty, en arguant que l'avenir de l'IA n'est pas prédéterminé ; nous devons le façonner activement, et non pas accepter passivement un résultat soi-disant « inévitable ».

La bulle des talents en IA : des milliards de dollars d’acquisitions alimentent la frénésie

2025-07-14
La bulle des talents en IA : des milliards de dollars d’acquisitions alimentent la frénésie

Les acquisitions multimilliardaires de talents en IA par Meta et Google signalent une bulle massive de talents dans le secteur. La valeur des meilleurs chercheurs en IA est en forte hausse, affectant à la fois les fondateurs et les employés clés. Cette inégalité découle de la croissance parabolique des investissements en IA et du besoin urgent de personnel qualifié. Les mécanismes de confiance traditionnels sont en train de se désintégrer, ce qui nécessite une réécriture du contrat social entre les entreprises et les talents. Seules les entreprises ayant des missions fortes et un financement massif prospéreront dans cette guerre des talents, remodelant le paysage de la Silicon Valley.

IA

Mise à l'échelle de l'apprentissage par renforcement : Prédiction du jeton suivant sur le Web

2025-07-13
Mise à l'échelle de l'apprentissage par renforcement : Prédiction du jeton suivant sur le Web

L'auteur soutient que l'apprentissage par renforcement (RL) est la prochaine frontière pour l'entraînement des modèles d'IA. Les approches actuelles consistant à mettre à l'échelle de nombreux environnements simultanément sont désordonnées. Au lieu de cela, l'auteur propose d'entraîner des modèles à raisonner en utilisant le RL pour la prédiction du jeton suivant sur des ensembles de données à l'échelle du Web. Cela exploite la grande quantité de données Web facilement disponibles, dépassant les limites des ensembles de données d'entraînement RL actuels axés sur les problèmes de mathématiques et de code. En unifiant le RL avec la prédiction du jeton suivant, l'approche promet de créer des modèles de raisonnement beaucoup plus puissants.

IA

Jouer contre le cancer : les jeux de science citoyenne peuvent-ils aider à guérir les maladies ?

2025-07-13
Jouer contre le cancer : les jeux de science citoyenne peuvent-ils aider à guérir les maladies ?

En invitant les joueurs à s'attaquer à de vrais problèmes scientifiques, les jeux peuvent contribuer à résoudre les défis les plus difficiles de la médecine. L'ouvrage « Gaming Cancer » explore le concept de transformer la recherche sur le cancer en jeux de science citoyenne, permettant aux joueurs de contribuer à la recherche de traitements. Des jeux comme Foldit et EteRNA ont déjà mené à des découvertes scientifiques, telles que la conception de vaccins contre la COVID qui ne nécessitent pas de stockage à ultra-basse température. Bien qu'il ne soit pas garanti qu'ils résolvent des problèmes au-delà de la portée des scientifiques professionnels, ces jeux offrent de nouvelles perspectives, éduquent les joueurs en biologie et inspirent une participation plus large à la recherche sur le cancer.

Le moment GPT-3 du RL : L'essor de l'entraînement par réplication

2025-07-13
Le moment GPT-3 du RL : L'essor de l'entraînement par réplication

Cet article prédit un prochain « moment GPT-3 » pour l'apprentissage par renforcement (RL), impliquant un entraînement à grande échelle sur des milliers d'environnements divers pour obtenir de solides capacités peu nombreuses et agnostiques aux tâches. Cela nécessite une échelle et une diversité sans précédent dans les environnements d'entraînement, potentiellement équivalentes à des dizaines de milliers d'années de « temps de tâche orienté modèle ». Les auteurs proposent un nouveau paradigme, « l'entraînement par réplication », où les IA dupliquent des produits logiciels existants ou des fonctionnalités pour créer des tâches d'entraînement à grande échelle et automatiquement évaluables. Bien que des défis existent, cette approche offre une voie claire pour mettre à l'échelle le RL, permettant potentiellement aux IA de réaliser des projets logiciels complets de manière autonome.

Moonshot AI dévoile Kimi K2 : un modèle de langage MoE à 32 milliards de paramètres avec de puissantes capacités agentives

2025-07-13
Moonshot AI dévoile Kimi K2 : un modèle de langage MoE à 32 milliards de paramètres avec de puissantes capacités agentives

Moonshot AI a dévoilé Kimi K2, un modèle de langage de pointe à mélange d'experts (MoE) doté de 32 milliards de paramètres activés et d'un total d'un trillion de paramètres. Entraîné avec l'optimiseur Muon, Kimi K2 offre des performances exceptionnelles dans les tâches de connaissance de pointe, de raisonnement et de codage, et est méticuleusement optimisé pour les capacités agentives. Il est disponible en deux versions : Kimi-K2-Base, un modèle de base pour les chercheurs, et Kimi-K2-Instruct, un modèle d'instructions prêt à l'emploi avec des capacités robustes d'appel d'outils, décidant de manière autonome quand et comment utiliser les outils. Le modèle et ses poids sont open source, et une API est disponible.

1 2 5 6 7 9 11 12 13 40 41