Category: IA

Déconstruire les systèmes complexes avec la méréologie : au-delà de la simple causalité

2025-02-06

Cet article présente une nouvelle approche pour comprendre la structure d'ordre supérieur dans les systèmes complexes, basée sur la méréologie, une branche de la théorie des ensembles. En utilisant les anneaux borroméens comme exemple, il illustre comment le tout peut être plus que la somme de ses parties. L'auteur propose que, en construisant la méréologie d'un système et en appliquant la formule d'inversion de Möbius, les quantités macroscopiques peuvent être décomposées en sommes de contributions microscopiques, révélant la nature des interactions d'ordre supérieur. Des exemples d'interactions génétiques et d'information mutuelle en théorie de l'information démontrent l'application de la méthode, avec des implications prometteuses pour l'apprentissage automatique et la physique.

Quatre approches pour construire des modèles de raisonnement pour les LLM

2025-02-06
Quatre approches pour construire des modèles de raisonnement pour les LLM

Cet article explore quatre approches principales pour améliorer les grands modèles de langage (LLM) avec des capacités de raisonnement : l’extension du temps d’inférence, l’apprentissage par renforcement pur, l’ajustement fin supervisé plus l’apprentissage par renforcement et la distillation de modèles. Le développement de DeepSeek R1 est utilisé comme étude de cas, montrant comment ces méthodes peuvent construire des modèles de raisonnement puissants et comment même les chercheurs disposant de budgets limités peuvent obtenir des résultats impressionnants grâce à la distillation. L’article compare également DeepSeek R1 au o1 d’OpenAI et discute des stratégies pour construire des modèles de raisonnement économiques.

Un agent IA apprend à utiliser un ordinateur comme un humain

2025-02-06
Un agent IA apprend à utiliser un ordinateur comme un humain

Le projet r1-computer-use vise à entraîner un agent IA à interagir avec un ordinateur comme un humain, en utilisant les systèmes de fichiers, les navigateurs web et les lignes de commande. Inspiré des techniques d'apprentissage par renforcement de DeepSeek-R1, il remplace les vérificateurs traditionnellement codés en dur par un modèle de récompense neuronal pour évaluer la justesse et l'utilité des actions de l'agent. Le pipeline d'entraînement comprend plusieurs étapes, des démonstrations d'experts à l'optimisation des politiques guidées par les modèles de récompense et l'ajustement fin, dans le but final d'obtenir un agent IA sûr et fiable capable de tâches complexes.

Un modèle de raisonnement IA à moins de 50 $ rivalise avec les concurrents de pointe

2025-02-06
Un modèle de raisonnement IA à moins de 50 $ rivalise avec les concurrents de pointe

Des chercheurs de Stanford et de l'Université de Washington ont entraîné un modèle de raisonnement IA, s1, pour moins de 50 $ en utilisant le cloud computing. Les performances de s1 sont comparables à celles des modèles de pointe tels que o1 d'OpenAI et R1 de DeepSeek pour les tâches de mathématiques et de codage. L'équipe a utilisé la distillation des connaissances, en utilisant Google Gemini 2.0 Flash Thinking Experimental comme modèle enseignant et un ensemble de données de 1 000 questions soigneusement sélectionnées. Cette réplication à faible coût soulève des questions sur la marchandisation de l'IA et aurait contrarié les grands laboratoires d'IA.

Le kinétoscope des années 1890 : un précurseur de la solitude de l’IA ?

2025-02-05
Le kinétoscope des années 1890 : un précurseur de la solitude de l’IA ?

Cet article établit des parallèles entre le kinétoscope mono-utilisateur des années 1890 et la technologie de l’IA actuelle, en particulier les grands modèles de langage. L’article soutient que les deux technologies, bien qu’offrant un contenu produit en masse, créent une expérience à la fois interconnectée et atomisée, entraînant un nouveau type de solitude technologique. L’auteur explore le contexte historique de l’invention d’Edison et son choix de conception étonnamment prémonitoire, soulignant la ressemblance étrange avec notre dépendance actuelle aux flux algorithmiques personnalisés et aux compagnons IA. Cela incite à la réflexion sur l’orientation du progrès technologique et son impact sur l’expérience individuelle.

Papyrus d'Herculanum 5 : Une percée dans la détection d'encre

2025-02-05
Papyrus d'Herculanum 5 : Une percée dans la détection d'encre

Des progrès significatifs ont été réalisés dans la détection de l'encre et la segmentation du P.Herc. 172 des bibliothèques Bodleian d'Oxford (Rouleau 5). Le rouleau présente une encre exceptionnellement visible, ce qui facilite grandement l'entraînement des modèles de détection de l'encre. Bien que la segmentation nécessite un raffinement supplémentaire, les analyses préliminaires suggèrent une paternité de Philodème, avec des mots tels que « dégoût », « peur » et « vie » identifiés, ainsi que des symboles indiquant une œuvre achevée. Les caractéristiques uniques du Rouleau 5 offrent un potentiel en tant que « pierre de Rosette » pour la détection de l'encre dans d'autres rouleaux. L'équipe a publié des données de segmentation étendues pour faciliter la recherche.

La famille Gemini 2.0 fait peau neuve : performances améliorées et capacités multimodales

2025-02-05
La famille Gemini 2.0 fait peau neuve : performances améliorées et capacités multimodales

Google a considérablement mis à jour sa famille de modèles Gemini 2.0 ! Le modèle 2.0 Flash est désormais généralement disponible via l’API, permettant aux développeurs de créer des applications de production. Une version expérimentale du 2.0 Pro, offrant des performances de codage supérieures et la capacité de gérer des invites complexes, avec une fenêtre de contexte de 2 millions de jetons, a également été lancée. Un modèle 2.0 Flash-Lite économique est désormais en préversion publique. Tous les modèles prennent actuellement en charge l’entrée multimodale avec sortie de texte, et d’autres modalités seront ajoutées dans les mois à venir. Cette mise à jour améliore considérablement les performances et étend l’applicabilité, marquant une avancée majeure pour Gemini dans le paysage de l’IA.

IA

Le Prix Netflix : Un Jalon et une Leçon Amère en Apprentissage Automatique

2025-02-05
Le Prix Netflix : Un Jalon et une Leçon Amère en Apprentissage Automatique

En 2006, Netflix a lancé un concours d'un million de dollars pour améliorer son système de recommandation. Cette compétition a attiré des milliers d'équipes et a considérablement fait progresser le domaine de l'apprentissage automatique. Les résultats ont montré que des algorithmes simples pouvaient étonnamment bien fonctionner, que des modèles plus grands donnaient de meilleurs scores et que le sur-apprentissage n'était pas toujours un problème. Cependant, la compétition a également laissé une leçon amère : les préoccupations concernant la confidentialité des données ont conduit Netflix à annuler les concours futurs, limitant la recherche ouverte sur les algorithmes de systèmes de recommandation, et le contrôle des entreprises technologiques sur les données a atteint un niveau sans précédent.

IA

Un modèle d'IA à 6 $ bouleverse le paysage des LLM : Présentation de S1

2025-02-05
Un modèle d'IA à 6 $ bouleverse le paysage des LLM : Présentation de S1

Un nouvel article dévoile S1, un modèle d'IA entraîné pour seulement 6 $, atteignant des performances proches de l'état de l'art, tout en fonctionnant sur un ordinateur portable standard. Le secret réside dans sa méthode ingénieuse d'« échelonnage du temps d'inférence » : en insérant des commandes « Attendre » pendant le processus de pensée du LLM, il contrôle le temps de réflexion et optimise les performances. Cela fait écho à la technique Entropix, toutes deux manipulant les états internes du modèle pour l'améliorer. L'extrême frugalité des données de S1, n'utilisant que 1000 exemples soigneusement sélectionnés, produit des résultats étonnamment bons, ouvrant de nouvelles voies pour la recherche en IA et suscitant des débats sur la distillation des modèles et la propriété intellectuelle. Le faible coût et la haute efficacité de S1 signalent un rythme plus rapide du développement de l'IA.

Toma : Construction d'une main-d'œuvre IA pour l'industrie automobile de 1,5 billion de dollars

2025-02-05
Toma : Construction d'une main-d'œuvre IA pour l'industrie automobile de 1,5 billion de dollars

Toma construit une main-d'œuvre IA de bout en bout pour l'industrie automobile de 1,5 billion de dollars. Ses plus gros clients dépensent plus de 1,5 milliard de dollars par an dans des processus facilement automatisables avec l'IA, notamment le service client, la gestion des ordres de réparation, le traitement des garanties et les ventes. L'équipe de Toma possède des antécédents prouvés dans la création et la vente d'applications IA réussies, un produit IA vocale de premier ordre et une expérience pratique approfondie acquise en travaillant directement avec et en étudiant des concessionnaires automobiles. Ils fonctionnent avec une approche axée sur l'équipe, responsable, en mettant l'accent sur les décisions basées sur les données et en offrant une autonomie significative. Située dans le quartier Dogpatch de San Francisco, Toma offre un environnement rapide et sans fioritures où les personnes exceptionnelles peuvent avoir un impact important. Ils travaillent au bureau cinq jours par semaine.

IA

Google supprime son engagement à ne pas développer d'IA pour les armes et la surveillance

2025-02-04
Google supprime son engagement à ne pas développer d'IA pour les armes et la surveillance

Google a discrètement supprimé cette semaine de son site web un engagement à ne pas développer d'IA pour les armes ou la surveillance. Ce changement, initialement rapporté par Bloomberg, a suscité la controverse. Bien que Google mette désormais l'accent sur le développement responsable de l'IA, en accord avec le droit international et les droits humains, ses contrats avec les armées américaines et israéliennes, ainsi que les affirmations du Pentagone selon lesquelles l'IA de Google accélère la « chaîne de mort » militaire, soulèvent des inquiétudes quant à l'écart entre ses principes déclarés et ses actions. Les protestations internes des employés et l'examen public mettent en lumière les dilemmes éthiques entourant le développement et le déploiement de l'IA.

L'alchimie de l'entraînement efficace des LLM : au-delà des limites de calcul

2025-02-04

Cet article explore en profondeur l’entraînement efficace des grands modèles de langage (LLM) à grande échelle. L’auteur soutient que, même avec des dizaines de milliers d’accélérateurs, des principes relativement simples peuvent améliorer considérablement les performances du modèle. Les sujets abordés incluent l’évaluation des performances du modèle, le choix de schémas de parallélisme à différentes échelles, l’estimation du coût et du temps d’entraînement des grands modèles Transformer et la conception d’algorithmes tirant parti des avantages spécifiques du matériel. Grâce à des explications détaillées des architectures TPU et GPU, et à une analyse approfondie de l’architecture Transformer, les lecteurs acquerront une meilleure compréhension des goulots d’étranglement de mise à l’échelle et concevront des modèles et des algorithmes plus efficaces.

OmniHuman-1 : Repenser la mise à l'échelle des modèles d'animation humaine conditionnelle à une étape

2025-02-04

OmniHuman-1 est un modèle d'IA capable de générer des vidéos humaines réalistes. Il prend en charge divers styles visuels et audio, générant des vidéos à n'importe quel ratio et proportion corporelle (portrait, demi-corps, corps entier). Le réalisme provient de détails complets de mouvement, d'éclairage et de texture. Le modèle gère diverses entrées, y compris le chant, la parole et diverses poses, même à partir de dessins animés ou de points de vue difficiles. Il utilise des signaux de pilotage audio et vidéo pour un contrôle précis. Les considérations éthiques sont abordées, avec des images et de l'audio provenant de domaines publics ou de modèles générés.

Radiant Foam : Une percée dans le ray tracing différentiable en temps réel

2025-02-04

Des chercheurs présentent Radiant Foam, une nouvelle représentation de scène combinant l'efficacité du ray tracing de maillage volumique et la qualité de reconstruction des méthodes de splatting. En utilisant les diagrammes de Voronoi et la triangulation de Delaunay, Radiant Foam réalise un ray tracing en temps réel, surpassant même le ray tracing gaussien accéléré par matériel en termes de vitesse, tout en égalant presque la qualité de reconstruction des méthodes de splatting gaussiennes. Il évite les structures d'accélération complexes et le matériel/les API spéciaux, ne nécessitant qu'un GPU programmable standard. Cette avancée promet de faire progresser significativement le rendu en temps réel.

OpenAI signe un accord de 3 milliards de dollars avec SoftBank et pourrait open-sourcer ses modèles

2025-02-04
OpenAI signe un accord de 3 milliards de dollars avec SoftBank et pourrait open-sourcer ses modèles

OpenAI a annoncé lundi une coentreprise avec SoftBank Japan, le géant de l'investissement dépensant 3 milliards de dollars par an pour utiliser les logiciels d'OpenAI. Ce changement de stratégie semble être une réponse à la montée inattendue de DeepSeek. Le modèle d'intelligence artificielle de pointe de la société chinoise n'utilise qu'une fraction de la puissance de calcul de ChatGPT d'OpenAI et de produits similaires, remettant en question les hypothèses répandues sur les exigences techniques et financières de l'expansion de l'IA. Parallèlement, le PDG d'OpenAI, Sam Altman, a déclaré qu'il envisageait de rendre ses produits open-source, comme ceux de DeepSeek, ce qui signifierait potentiellement que n'importe qui pourrait utiliser et réutiliser les modèles d'OpenAI : Altman a déclaré sur Reddit qu'OpenAI avait été « du mauvais côté de l'histoire » en gardant son code source privé.

IA

Les bonobos montrent qu'ils comprennent l'ignorance : Une percée dans la recherche sur la théorie de l'esprit

2025-02-04
Les bonobos montrent qu'ils comprennent l'ignorance : Une percée dans la recherche sur la théorie de l'esprit

Une nouvelle étude démontre que les bonobos possèdent une théorie de l'esprit, comprenant le manque de connaissances des autres et agissant en conséquence. Les chercheurs ont conçu une expérience dans laquelle les bonobos aidaient un expérimentateur à trouver des friandises cachées. Les résultats ont montré que les bonobos indiquaient plus rapidement et plus fréquemment lorsqu'ils réalisaient que l'expérimentateur ne connaissait pas l'emplacement de la friandise. Cela indique que les bonobos suivent et répondent à des perspectives différentes, suggérant que la théorie de l'esprit pourrait être plus ancienne qu'on ne le pensait auparavant et potentiellement présente chez notre ancêtre commun.

Auto-AVSR : Framework open source de reconnaissance vocale par lecture labiale

2025-02-03
Auto-AVSR : Framework open source de reconnaissance vocale par lecture labiale

Auto-AVSR est un framework open source de reconnaissance vocale audio-visuelle (AV-ASR) de bout en bout, axé sur la parole visuelle (lecture labiale). Il a atteint un taux d'erreur de mots (WER) de 20,3 % pour la reconnaissance vocale visuelle (VSR) et de 1,0 % pour la reconnaissance vocale audio (ASR) sur le benchmark LRS3. Il fournit du code et des tutoriels pour l'entraînement, l'évaluation et l'utilisation de l'API, avec prise en charge de l'entraînement multinœuds. Les utilisateurs peuvent utiliser des modèles pré-entraînés ou entraîner un modèle à partir de zéro, en personnalisant les hyperparamètres selon leurs besoins.

OpenEuroLLM : L'Europe mise sur les LLMs multilingues open source

2025-02-03

Un consortium de 20 institutions de recherche et entreprises européennes de premier plan a lancé OpenEuroLLM, un projet visant à créer une famille de modèles linguistiques de grande taille (LLM) multilingues et performants. L'initiative vise à renforcer la compétitivité de l'Europe en matière d'IA en démocratisant l'accès à des technologies IA de haute qualité grâce à des principes open source. Cela permettra aux entreprises et organisations publiques européennes de développer des produits et services à fort impact. OpenEuroLLM fonctionne dans le cadre réglementaire européen et collabore avec des communautés open source pour garantir l'ouverture complète des modèles, des logiciels, des données et de l'évaluation, répondant ainsi aux divers besoins des secteurs public et privé tout en préservant la diversité linguistique et culturelle.

Document de formation IBM perdu : les ordinateurs ne peuvent pas être tenus responsables (1979)

2025-02-03
Document de formation IBM perdu : les ordinateurs ne peuvent pas être tenus responsables (1979)

Une page légendaire d'une formation interne d'IBM de 1979 a refait surface en ligne, déclarant : « Un ordinateur ne peut jamais être tenu responsable ; par conséquent, un ordinateur ne doit jamais prendre de décision de gestion. » La source originale est perdue, aurait été détruite par une inondation. Cette déclaration résonne puissamment à notre époque pilotée par l'IA, ce qui incite à la réflexion sur la responsabilité et la prise de décision de l'IA.

s1 : Mise à l’échelle simple au moment des tests pour des performances de raisonnement solides

2025-02-03
s1 : Mise à l’échelle simple au moment des tests pour des performances de raisonnement solides

Cet article présente s1, une méthode simple de mise à l’échelle au moment des tests qui atteint des performances de raisonnement solides, comparables à celles de o1-preview, en utilisant seulement 1 000 exemples et une contrainte budgétaire. La méthode améliore considérablement les performances des grands modèles de langage grâce à des stratégies intelligentes au moment des tests. Le code et les données sont open source pour la reproductibilité et une exploration plus approfondie.

Les Classificateurs Constitutionnels d'Anthropic : Une nouvelle défense contre les jailbreaks d'IA

2025-02-03
Les Classificateurs Constitutionnels d'Anthropic : Une nouvelle défense contre les jailbreaks d'IA

L'équipe de recherche sur les protections d'Anthropic présente les Classificateurs Constitutionnels, une nouvelle défense contre les jailbreaks d'IA. Ce système, entraîné sur des données synthétiques, filtre efficacement les sorties nuisibles, en minimisant les faux positifs. Un prototype a résisté à des milliers d'heures de red teaming humain, réduisant significativement les taux de réussite des jailbreaks, bien qu'il ait initialement souffert de taux de refus élevés et de surcharges informatiques. Une version mise à jour maintient la robustesse avec seulement une légère augmentation du taux de refus et un coût informatique modéré. Une démonstration en direct temporaire invite les experts en sécurité à tester sa résistance, ouvrant la voie à un déploiement plus sûr de modèles d'IA de plus en plus puissants.

Klarity : Décrypter l'incertitude dans les modèles génératifs

2025-02-03
Klarity : Décrypter l'incertitude dans les modèles génératifs

Klarity est un outil permettant d'analyser l'incertitude dans les sorties des modèles génératifs. Il combine l'analyse des probabilités brutes et la compréhension sémantique pour fournir des informations approfondies sur le comportement du modèle lors de la génération de texte. La bibliothèque offre une analyse de l'entropie double, un clustering sémantique et une sortie JSON structurée, ainsi qu'une analyse basée sur l'IA pour des informations compréhensibles par l'homme. Elle prend actuellement en charge Hugging Face Transformers, avec des projets d'extension à d'autres frameworks et modèles.

Cartographie de Projection Faciale Dynamique Alignée Perceptuellement : Suivi Haute Vitesse et Configuration Coaxiale

2025-02-03
Cartographie de Projection Faciale Dynamique Alignée Perceptuellement : Suivi Haute Vitesse et Configuration Coaxiale

Des chercheurs ont développé un nouveau système de cartographie de projection faciale dynamique (DFPM) à haute vitesse qui réduit considérablement les artéfacts de désalignement. Ceci est réalisé grâce à une méthode de suivi facial haute vitesse utilisant une détection de visage basée sur l’interpolation/extrapolation limitée à la zone recadrée et un ensemble rapide d’arbres de régression (ERT) pour la détection de points de repère (0,107 ms). Une configuration de projecteur-caméra coaxiale à décalage de lentille maintient un alignement optique élevé avec une erreur minimale (1,274 pixels entre 1 m et 2 m). Ce système atteint un alignement presque parfait, améliorant les expériences immersives en maquillage et en divertissement.

Épistémologie bayésienne 101 : croyances, preuves et rationalité

2025-02-03

Ce tutoriel présente l’épistémologie bayésienne, en se concentrant sur ses normes fondamentales : le probabilisme et le principe de conditionnement. En utilisant l’observation de l’éclipse solaire d’Eddington comme étude de cas, il illustre comment les méthodes bayésiennes mettent à jour la croyance en des hypothèses. Le tutoriel explore ensuite les désaccords au sein du bayésianisme concernant les probabilités a priori, la cohérence et la portée du conditionnement, en présentant des arguments fondamentaux tels que les arguments du livre hollandais, les arguments de dominance de précision et les arguments de probabilité comparative. Enfin, il aborde le problème de l’idéalisation et l’application des méthodes bayésiennes en science.

Pensée réelle vs. pensée factice : rester éveillé à l’ère de l’IA

2025-02-03
Pensée réelle vs. pensée factice : rester éveillé à l’ère de l’IA

Cet essai explore la différence entre « pensée réelle » et « pensée factice ». L’auteur soutient que la « pensée réelle » ne consiste pas simplement à penser à des choses concrètes, mais à une manière de penser plus profonde et perspicace qui se concentre sur une véritable compréhension du monde, plutôt que de rester enfermé dans des concepts abstraits ou des cadres préexistants. À l’aide d’exemples tels que les risques liés à l’IA, la philosophie et les débats compétitifs, l’essai décrit plusieurs dimensions de la « pensée réelle » et suggère des méthodes pour cultiver cette capacité, telles que ralentir, suivre sa curiosité et prêter attention aux motivations sous-jacentes à la pensée. L’auteur appelle à rester éveillé à l’ère de l’IA, à éviter les pièges de la « pensée factice » et à véritablement comprendre et répondre aux changements à venir.

TopoNets : modèles de vision et de langage performants avec une topographie cérébrale

2025-02-03
TopoNets : modèles de vision et de langage performants avec une topographie cérébrale

Les chercheurs présentent TopoLoss, une nouvelle méthode permettant d'intégrer une topographie cérébrale dans les principales architectures d'IA (réseaux convolutionnels et transformateurs) avec une perte de performance minimale. Les modèles TopoNets qui en résultent atteignent des performances de pointe parmi les réseaux neuronaux topographiques supervisés. TopoLoss est facile à mettre en œuvre, et les expériences montrent que les TopoNets conservent des performances élevées tout en présentant une organisation spatiale similaire à celle du cerveau. De plus, les TopoNets produisent des modèles de langage parcimonieux et efficaces en termes de paramètres, et présentent une sélectivité régionale similaire à celle du cerveau dans la reconnaissance d'images et des fenêtres d'intégration temporelle dans les modèles de langage, reflétant les schémas observés dans le cortex visuel et les zones de traitement du langage du cerveau.

Projet 'Strawberry' d'OpenAI : viser le raisonnement profond en IA

2025-02-03
Projet 'Strawberry' d'OpenAI : viser le raisonnement profond en IA

OpenAI développe secrètement un projet baptisé « Strawberry », visant à surmonter les limites des capacités de raisonnement des modèles d'IA actuels. Le projet vise à permettre à l'IA de planifier et de mener des recherches approfondies sur Internet de manière autonome, au lieu de simplement répondre aux questions. Des documents internes révèlent que le modèle « Strawberry » utilisera une méthode de post-formation spécialisée, combinée à des capacités d'auto-apprentissage et de planification, pour résoudre de manière fiable des problèmes complexes. Ceci est considéré comme une avancée significative, susceptible de révolutionner le rôle de l'IA dans la découverte scientifique et le développement de logiciels, tout en soulevant des préoccupations éthiques concernant les capacités futures de l'IA.

IA

Le chatbot chinois DeepSeek censure la photo de « l'homme du char » et secoue les marchés américains

2025-02-02
Le chatbot chinois DeepSeek censure la photo de « l'homme du char » et secoue les marchés américains

Le chatbot chinois DeepSeek a suscité la controverse en refusant de répondre aux questions sur l'emblématique photo de « l'homme du char » de la place Tiananmen de 1989. Le chatbot interrompt brusquement les discussions sur l'image et d'autres sujets sensibles liés à la Chine, tout en fournissant des réponses détaillées sur des dirigeants mondiaux comme le Premier ministre britannique. Simultanément, les puissantes capacités de génération d'images de DeepSeek (Janus-Pro-7B) et son coût de développement étonnamment bas (selon les informations, seulement 6 millions de dollars) ont envoyé des ondes de choc sur les marchés américains, entraînant une baisse record de 17 % des actions Nvidia et suscitant l'inquiétude des géants technologiques américains et des politiciens.

L'auteur de science-fiction Ted Chiang sur l'IA et l'avenir de la technologie

2025-02-02
L'auteur de science-fiction Ted Chiang sur l'IA et l'avenir de la technologie

Cet entretien avec le maître de la science-fiction Ted Chiang explore son inspiration créative, son point de vue critique sur l'IA et ses inquiétudes quant à l'orientation future de la technologie. Chiang soutient que l'IA actuelle, notamment les grands modèles de langage, ressemble davantage à des images basse résolution d'internet, manquant de fiabilité et de véritable compréhension. Il souligne la relation entre les humains et les outils, et la tendance humaine à se voir dans ses outils. L'entretien aborde également la nature du langage, le rôle de l'IA dans la création artistique et les considérations éthiques du développement technologique. L'optimisme de Chiang concernant la technologie est prudent ; il estime que nous devons être conscients des impacts négatifs potentiels et travailler à les atténuer.

OpenAI utilise r/ChangeMyView de Reddit pour évaluer la persuasion de l'IA

2025-02-02
OpenAI utilise r/ChangeMyView de Reddit pour évaluer la persuasion de l'IA

OpenAI a utilisé le subreddit r/ChangeMyView de Reddit pour évaluer les capacités de persuasion de son nouveau modèle de raisonnement, o3-mini. Le subreddit, où les utilisateurs publient des opinions et participent à des débats, a fourni un ensemble de données unique pour évaluer dans quelle mesure les réponses générées par l'IA pouvaient changer d'avis. Bien que o3-mini n'ait pas surpassé significativement les modèles précédents, tels que o1 ou GPT-4o, tous ont démontré de fortes capacités de persuasion, se classant dans le 80e-90e percentile supérieur des performances humaines. OpenAI souligne que l'objectif n'est pas de créer une IA hyper-persuasive, mais plutôt d'atténuer les risques associés à des modèles excessivement persuasifs. L'évaluation met en évidence le défi permanent d'obtenir des ensembles de données de haute qualité pour le développement de modèles d'IA.

IA
1 2 33 34 35 36 37 38 40