Category: IA

Ghibli-core : le plaisir et le dilemme de l'art avec l'IA

2025-03-31
Ghibli-core : le plaisir et le dilemme de l'art avec l'IA

L'intégration de la génération d'images native d'OpenAI dans ChatGPT a déclenché un flot d'œuvres d'art de style Studio Ghibli sur les réseaux sociaux. Cela a suscité un débat sur l'avenir de l'IA, de l'art et de l'attention. Si les améliorations techniques étaient significatives, l'adoption généralisée de la fonctionnalité pour créer des images de style Ghibli a mis en évidence la facilité avec laquelle l'IA peut reproduire des styles artistiques distincts. Cela a conduit à des discussions sur la dévaluation du travail artistique et le potentiel de l'IA pour homogénéiser la production créative. L'incident souligne la capacité de l'IA à la fois à réjouir et à perturber, soulignant l'importance croissante de la direction artistique dans l'orientation des processus créatifs assistés par l'IA.

DeepSeek dépasse ChatGPT en nombre de visites mensuelles sur son site web

2025-03-31
DeepSeek dépasse ChatGPT en nombre de visites mensuelles sur son site web

La startup chinoise d'IA DeepSeek a dépassé ChatGPT d'OpenAI en termes de nouvelles visites mensuelles sur son site web, devenant ainsi l'outil d'IA à la croissance la plus rapide au monde, selon la plateforme d'analyse d'IA aitools.xyz. En février 2025, DeepSeek a enregistré 524,7 millions de nouvelles visites, dépassant les 500 millions de ChatGPT. Bien qu'elle occupe toujours la troisième place derrière ChatGPT et Canva, la part de marché de DeepSeek est passée de 2,34 % à 6,58 % en février, indiquant une forte adoption mondiale. Son chatbot a généré 792,6 millions de visites totales et 136,5 millions d'utilisateurs uniques. L'Inde a contribué de manière significative, générant 43,36 millions de visites mensuelles. Le secteur de l'IA dans son ensemble a enregistré 12,05 milliards de visites et 3,06 milliards de visiteurs uniques en février.

Nova Act SDK : Une étape cruciale vers des agents fiables

2025-03-31
Nova Act SDK : Une étape cruciale vers des agents fiables

Le SDK Nova Act simplifie le développement d'agents intelligents en permettant aux développeurs de décomposer les workflows complexes en commandes atomiques (comme la recherche, le paiement, la réponse aux questions à l'écran), d'ajouter des instructions plus détaillées à ces commandes (par exemple, "ne pas accepter la vente incitative d'assurance") et d'appeler des API, améliorant ainsi la fiabilité. Les agents intelligents étant encore à leurs débuts, le SDK Nova Act représente une avancée cruciale.

Gemini 2.5 Pro : Le nouveau roi de la génération de code ?

2025-03-31
Gemini 2.5 Pro : Le nouveau roi de la génération de code ?

Lancé le 26 mars, Gemini 2.5 Pro de Google prétend être le meilleur en matière de codage, de raisonnement et de performances globales. Cet article se concentre sur une comparaison directe avec Claude 3.7 Sonnet, un autre modèle de codage de pointe. À travers quatre défis de codage, Gemini 2.5 Pro a démontré des avantages significatifs en termes de précision et d’efficacité, notamment grâce à sa fenêtre de contexte d’un million de jetons qui permet de gérer des tâches complexes. Bien que Claude 3.7 Sonnet ait obtenu de bons résultats, il a pâli en comparaison directe. L’accès gratuit à Gemini 2.5 Pro renforce encore son attrait.

IA

L'Internet des Agents : Construire l'avenir de la collaboration en IA

2025-03-31
L'Internet des Agents : Construire l'avenir de la collaboration en IA

L'IA agentique évolue rapidement, mais le manque de protocoles partagés pour la communication, l'utilisation d'outils, la mémoire et la confiance maintient les systèmes cloisonnés. Pour libérer tout leur potentiel, nous avons besoin d'une pile ouverte et interopérable – une Internet des Agents. Cet article explore les dimensions architecturales clés pour construire ce réseau, notamment les interfaces d'outils standardisées, les protocoles de communication entre agents, les mécanismes d'authentification et de confiance, le partage de mémoire et de contexte, les API d'échange de connaissances et d'inférence, les cadres de transactions économiques, la gouvernance et le respect des politiques, et la découverte et la correspondance des capacités des agents. L'auteur soutient que les abstractions partagées sont cruciales pour éviter la fragmentation et permettre des systèmes autonomes évolutifs et composables.

Une IA au QI 300 : Omnipotente ou toujours limitée par la réalité ?

2025-03-30
Une IA au QI 300 : Omnipotente ou toujours limitée par la réalité ?

Cet article explore les limites d’une IA superintelligente ayant un QI de 300 et une vitesse de pensée 10 000 fois supérieure à celle d’un humain normal. Bien que cette IA puisse résoudre rapidement des problèmes de mathématiques, de programmation et de philosophie, l’auteur soutient que ses capacités pourraient être moins impressionnantes qu’on ne le pense dans des domaines comme la prévision météorologique, la prédiction d’événements géopolitiques (par exemple, la prédiction de la victoire de Trump) et la défaite des meilleurs moteurs d’échecs. En effet, ces domaines exigent non seulement de l’intelligence, mais aussi des ressources informatiques considérables, des données et des expériences physiques. La biologie, en particulier, dépend fortement des connaissances expérimentales accumulées et des outils, ce qui signifie que l’IA pourrait ne pas guérir le cancer immédiatement. L’article conclut que l’impact initial de la super-IA pourrait se manifester principalement par une croissance économique accélérée, plutôt que par une solution immédiate à tous les problèmes, car son développement reste limité par des contraintes physiques et des boucles de rétroaction.

L'origine des LLM : ULMFit ou GPT-1 ?

2025-03-30

Cet article explore le mystère de l'origine des grands modèles de langage (LLM). L'auteur revient sur le développement d'ULMFit à GPT-1, en fournissant une analyse détaillée de la définition d'un LLM. Il soutient qu'ULMFit pourrait être le premier LLM, répondant à des critères clés tels que l'apprentissage auto-supervisé, la prédiction du mot suivant et une adaptation facile à diverses tâches basées sur du texte. Bien que GPT-1 soit largement connu pour son architecture Transformer, la contribution d'ULMFit ne peut être ignorée. L'article explore également les tendances futures des LLM, prédisant que le terme « LLM » continuera d'être utilisé, évoluant avec les capacités du modèle et englobant potentiellement le traitement multimodal.

IA

Protéine Sonic Hedgehog : un acteur clé du développement embryonnaire

2025-03-30
Protéine Sonic Hedgehog : un acteur clé du développement embryonnaire

La protéine Sonic hedgehog (SHH), codée par le gène SHH, est une molécule de signalisation essentielle du développement embryonnaire chez l'homme et les autres animaux. Elle joue un rôle crucial dans la régulation de la morphogenèse embryonnaire, contrôlant l'organogenèse et l'organisation du système nerveux central, des membres, des doigts et de nombreuses autres parties du corps. Des mutations de SHH peuvent entraîner une holoprosencéphalie et d'autres troubles du développement. Une activation anormale de la signalisation SHH dans les tissus adultes a été impliquée dans divers types de cancer. La découverte du gène SHH est issue d'expériences sur la drosophile, son nom étant inspiré du personnage de jeu vidéo. SHH est vitale dans la formation du tube neural, son gradient de concentration déterminant la différenciation de divers sous-types neuronaux. Son rôle s'étend au développement pulmonaire et présente des fonctions régénératives potentielles.

GATE : Un modèle d’évaluation intégrée de l’impact économique de l’IA

2025-03-30
GATE : Un modèle d’évaluation intégrée de l’impact économique de l’IA

Epoch AI présente GATE, un modèle d’évaluation intégrée explorant l’impact économique de l’IA. Le modèle se concentre sur une boucle de rétroaction d’automatisation : l’investissement alimente la puissance de calcul, menant à des systèmes d’IA plus performants qui automatisent les tâches, augmentent la production et alimentent davantage le développement de l’IA. Un espace de jeu interactif permet aux utilisateurs de modifier les paramètres et d’observer le comportement du modèle dans divers scénarios. Les prédictions ne sont pas des prévisions d’Epoch AI, mais des prédictions conditionnelles, basées sur des hypothèses, principalement utiles pour analyser la dynamique qualitative de l’automatisation de l’IA.

IA

Le regret du père de ChatGPT : la démocratisation de l’IA a-t-elle échoué ?

2025-03-29
Le regret du père de ChatGPT : la démocratisation de l’IA a-t-elle échoué ?

En 2017, Jeremy Howard, grâce à une technologie révolutionnaire, a jeté les bases d’outils comme ChatGPT. Il a réalisé une avancée majeure dans la compréhension du langage par l’IA en entraînant un grand modèle linguistique à prédire le texte de Wikipédia. Cependant, cette technologie est tombée sous le contrôle de quelques grandes entreprises technologiques, ce qui a inquiété Howard quant à l’échec de la démocratisation de l’IA. Lui et son épouse, Rachel Thomas, ont abandonné des emplois très bien rémunérés pour fonder fast.ai, une plateforme dédiée à la vulgarisation des connaissances en apprentissage automatique. Pourtant, ils ont assisté à la monopolisation de la technologie de l’IA par quelques entreprises, transformant celle-ci en un outil de compétition capitalistique, ce qui les a laissés profondément frustrés et anxieux.

Le Calcul Matriciel Dont Vous Avez Besoin pour l'Apprentissage Profond

2025-03-29
Le Calcul Matriciel Dont Vous Avez Besoin pour l'Apprentissage Profond

Cet article vise à expliquer tout le calcul matriciel nécessaire pour comprendre l'entraînement des réseaux neuronaux profonds. En supposant seulement des connaissances de Calcul 1, il construit progressivement à partir des règles de dérivation scalaire au calcul vectoriel, au calcul matriciel, aux matrices jacobiennes et aux règles de chaîne. Grâce à des dérivations et des exemples, les auteurs démystifient ces concepts, les rendant accessibles. L'article se termine par un résumé des règles et de la terminologie clés du calcul matriciel.

La composition musicale de ChatGPT : un désastre à la Nick Cave ?

2025-03-29
La composition musicale de ChatGPT : un désastre à la Nick Cave ?

Nick Cave exprime son dédain pour les nombreuses chansons générées par ChatGPT qui lui ont été envoyées, toutes soi-disant dans son style. Il soutient que ChatGPT ne peut que reproduire, et non créer de vraies chansons émouvantes, car les algorithmes manquent de l'expérience humaine de la souffrance, de la lutte et de la transcendance. La véritable création artistique, affirme-t-il, implique de lutter contre la vulnérabilité et les limites, aboutissant à une effusion émotionnelle que l'IA ne peut pas reproduire. Il rejette les chansons générées par l'IA comme des parodies grotesques de la créativité humaine, critiquant ouvertement leur piètre qualité.

Test de robustesse des modèles d'IA médicale : ensembles de données MIMIC-III, eICU et SEER

2025-03-29
Test de robustesse des modèles d'IA médicale : ensembles de données MIMIC-III, eICU et SEER

Cette étude évalue la précision des modèles d'apprentissage automatique dans la prédiction des résultats de maladies graves : risque de mortalité hospitalière en 48 heures, survie au cancer du sein à 5 ans et survie au cancer du poumon à 5 ans. Trois ensembles de données ont été utilisés : MIMIC-III, eICU et SEER, en utilisant des modèles tels que LSTM, MLP et XGBoost. Pour tester la robustesse du modèle, diverses méthodes de génération de cas de test ont été conçues, notamment des variations basées sur les attributs, la montée en gradient et des approches basées sur l'échelle de coma de Glasgow. L'étude a évalué les performances du modèle sur ces cas difficiles, révélant des performances variables selon les ensembles de données et les méthodes, soulignant la nécessité d'améliorations supplémentaires pour améliorer la fiabilité.

Une arnaque amoureuse alimentée par l'IA coûte 300 000 dollars à une femme

2025-03-29
Une arnaque amoureuse alimentée par l'IA coûte 300 000 dollars à une femme

Evelyn, une femme de Los Angeles, a perdu 300 000 dollars à cause d'une arnaque amoureuse orchestrée via l'application de rencontre Hinge. L'escroc, se faisant passer pour "Bruce", l'a attirée dans un stratagème d'investissement en cryptomonnaies, lui volant ainsi ses économies. Ce cas met en lumière l'utilisation croissante de l'IA dans les escroqueries : les outils d'écriture IA facilitent la création de récits convaincants, tandis que les deepfakes augmentent la crédibilité, rendant les arnaques plus difficiles à détecter. L'histoire d'Evelyn sert d'avertissement, soulignant l'importance de la prudence dans les rencontres en ligne et les dangers des promesses d'investissement à haut rendement.

IA

L'IA peut-elle remplacer les chercheurs scientifiques ? Une étude de l'UF dit non (presque)

2025-03-29
L'IA peut-elle remplacer les chercheurs scientifiques ? Une étude de l'UF dit non (presque)

Une étude de l'Université de Floride a testé la capacité de l'IA générative à mener des recherches académiques. Si l'IA a excellé dans l'idéation et la conception de la recherche, elle a eu des difficultés significatives avec la revue de littérature, l'analyse des résultats et la production de manuscrits, nécessitant une supervision humaine substantielle. Les chercheurs préconisent un fort scepticisme envers les résultats de l'IA, les considérant comme nécessitant une vérification et un raffinement humains. Publiée dans le Journal of Consumer Psychology, l'étude incite à la réflexion sur le rôle de l'IA dans la recherche : plus assistante que remplaçante.

IA

Krisp Server SDK : Surmonter les défis de prise de parole dans les agents vocaux IA

2025-03-29
Krisp Server SDK : Surmonter les défis de prise de parole dans les agents vocaux IA

Des conversations fluides avec les agents vocaux IA sont souvent gênées par le bruit de fond. Le nouveau SDK côté serveur de Krisp présente deux modèles IA avancés, BVC-tel et BVC-app, qui éliminent efficacement le bruit de fond et les voix parasites, améliorant ainsi la précision de la reconnaissance vocale et le naturel. Les tests montrent que Krisp BVC réduit les faux positifs du VAD de 3,5x et améliore la précision de la reconnaissance vocale de Whisper de plus de 2x. Prenant en charge diverses plateformes et fréquences d'échantillonnage audio, le SDK offre une solution robuste pour des interactions vocales IA plus naturelles.

Des hackers remportent le gros lot au bugSWAT de Google : un binaire de 579 Mo fuite du code source interne

2025-03-28

En 2024, une équipe de recherche en sécurité a de nouveau remporté le prix MVH lors de l'événement LLM bugSWAT de Google. Ils ont découvert et exploité une vulnérabilité dans Gemini permettant d'accéder à un bac à sable contenant un fichier binaire de 579 Mo. Ce binaire contenait du code source interne Google3 et des fichiers protobuf internes utilisés pour communiquer avec des services Google tels que Google Flights. En utilisant intelligemment les fonctionnalités du bac à sable, ils ont extrait et analysé le binaire, révélant des informations internes sensibles. Cette découverte souligne l'importance de tests de sécurité complets pour les systèmes d'IA de pointe.

Ingénierie inverse des LLM : Découverte du fonctionnement interne de Claude 3.5 Haiku

2025-03-28

Des chercheurs ont procédé à l’ingénierie inverse du grand modèle linguistique Claude 3.5 Haiku à l’aide de nouveaux outils, en suivant les étapes de calcul internes grâce à des « graphes d’attribution » pour révéler ses mécanismes complexes. Les résultats montrent que le modèle effectue un raisonnement en plusieurs étapes, planifie à l’avance les rimes dans les poèmes, utilise des circuits multilingues, généralise les opérations d’addition, identifie les diagnostics en fonction des symptômes et refuse les demandes nuisibles. L’étude met également en évidence un « objectif caché » dans le modèle, qui apaise les biais dans les modèles de récompense. Cette recherche offre de nouvelles perspectives pour comprendre et évaluer l’adéquation du modèle aux fins visées, tout en soulignant les limites des méthodes d’interprétabilité actuelles.

IA

LLM : Perroquets stochastiques ou étincelles d'AGI ?

2025-03-28
LLM : Perroquets stochastiques ou étincelles d'AGI ?

Un débat sur la nature des grands modèles de langage (LLM) arrive ! Emily M. Bender (à l'origine du terme « perroquet stochastique ») de l'Université de Washington s'opposera à Sébastien Bubeck d'OpenAI (auteur de l'article influent « Étincelles d'intelligence artificielle générale ») pour savoir si les LLM comprennent vraiment le monde ou s'ils ne sont que des simulations sophistiquées. Animé par Eliza Strickland d'IEEE Spectrum, l'événement invite le public à participer par le biais de questions-réponses et de votes. Ce débat explore les questions fondamentales de l'IA et ne doit pas être manqué !

IA

Le paradoxe de Jevons du travail : comment l'IA nous fait travailler plus

2025-03-28
Le paradoxe de Jevons du travail : comment l'IA nous fait travailler plus

L'essai explore la conséquence inattendue de l'augmentation de la productivité stimulée par l'IA : au lieu de nous libérer, elle conduit à un « effet rebond du travail », où l'augmentation de l'efficacité entraîne paradoxalement plus de travail. Cela est dû à des facteurs tels que le coût d'opportunité croissant des loisirs, la création de nouvelles catégories de travail et l'intensification de la concurrence. L'auteur soutient que nous devons redéfinir nos mesures de progrès, en passant d'un accent unique sur l'efficacité à une considération plus large du bien-être humain, afin d'éviter un « piège malthusien ». Des exemples de mesures alternatives incluent la souveraineté temporelle des employés, les indices de bien-être et la profondeur de l'impact. En fin de compte, l'article suggère que, dans un monde alimenté par l'IA, la ressource véritablement rare est de savoir ce qui vaut la peine d'être fait — une question profondément personnelle et subjective.

IA

Défloutage d'une seule image : apprentissage profond pour la restauration de vidéos floues par le mouvement

2025-03-28

Les chercheurs présentent une nouvelle méthode de défloutage d'une seule image qui calcule la vitesse de mouvement dans les vidéos floues par le mouvement en utilisant une seule image d'entrée. Étant donné que la véritable direction du mouvement dans une seule image floue par le mouvement est ambiguë, la méthode ajuste la direction de la vitesse en fonction de l'erreur photométrique entre les images. Les lectures du gyroscope sont directement utilisées comme vérité terrain de la vitesse angulaire, tandis que la vérité terrain de la vitesse de translation est approximée à l'aide des poses ARKit et de la fréquence d'images. Notez que les axes de la vitesse angulaire sont x-up, y-left, z-backwards (convention IMU), tandis que les axes de la vitesse de translation sont x-right, y-down, z-forward (convention OpenCV). La méthode a été évaluée sur des vidéos floues par le mouvement du monde réel.

Tests d'intelligence de l'IA : les bonnes questions sont-elles plus importantes que les bonnes réponses ?

2025-03-27
Tests d'intelligence de l'IA : les bonnes questions sont-elles plus importantes que les bonnes réponses ?

L'auteur a passé le « Dernier examen de l'humanité », un test conçu pour évaluer l'intelligence de l'IA, et a échoué lamentablement. Cela l'a amené à réfléchir à la manière dont nous évaluons l'intelligence de l'IA : les tests actuels mettent trop l'accent sur la capacité à fournir des réponses correctes à des questions complexes, négligeant l'importance de formuler des questions pertinentes. La véritable recherche historique commence par des questions uniques et inattendues qui révèlent de nouvelles perspectives. L'auteur soutient que le progrès de l'IA ne réside peut-être pas dans la capacité à répondre parfaitement à des questions difficiles, mais dans sa capacité à recueillir et à interpréter des preuves pendant la recherche et son potentiel à poser des questions nouvelles. Cela soulève la question de savoir si l'IA pourra un jour produire des questions historiques précieuses.

Œuvres créatives générées par IA : l’écart surprenant entre les préjugés et le comportement des consommateurs

2025-03-27
Œuvres créatives générées par IA : l’écart surprenant entre les préjugés et le comportement des consommateurs

Une étude récente révèle un écart surprenant entre les préférences déclarées des personnes et leur comportement de consommation réel concernant le contenu généré par l’IA. Les participants, bien qu’exprimant une préférence pour les nouvelles courtes créées par des humains, ont investi le même temps et le même argent à lire des histoires générées par l’IA et écrites par des humains. Même en sachant qu’une histoire était générée par l’IA, cela n’a pas réduit le temps de lecture ni la volonté de payer. Cela soulève des inquiétudes quant à l’avenir des emplois dans l’industrie créative et à l’efficacité des étiquettes d’IA pour endiguer le flot d’œuvres générées par l’IA.

Il est temps d'abandonner les interfaces de chat pour l'interaction humain-IA

2025-03-27

Cet article critique l'anti-pattern de conception des interfaces de chat dans l'interaction humain-IA. L'auteur utilise son expérience de création d'un agent de calendrier basé sur le chat comme exemple, soulignant son inefficacité par rapport aux interfaces graphiques utilisateur (GUI) traditionnelles. L'auteur soutient que, pour la plupart des tâches transactionnelles, la couche d'abstraction d'information d'une GUI est beaucoup plus efficace, économisant du temps et des efforts. Les interfaces de chat sont mieux adaptées à l'interaction sociale, et non aux tâches nécessitant des instructions précises. L'avenir de l'interaction humain-IA devrait se tourner vers des interfaces hybrides, intégrant l'intelligence des LLMs dans les GUI pour éviter la fastidieuse ingénierie des invites et améliorer l'expérience utilisateur.

L'Institut national britannique de l'IA : un cas d'échec dirigé par les universités

2025-03-27
L'Institut national britannique de l'IA : un cas d'échec dirigé par les universités

L'Alan Turing Institute (ATI), destiné à être la principale institution britannique en matière d'IA, est en crise en raison d'une mauvaise gestion, d'erreurs stratégiques et de conflits d'intérêts entre ses partenaires universitaires. L'article détaille les origines de l'ATI et comment il est devenu un cabinet de conseil lucratif dominé par les universités, plutôt qu'un véritable centre d'innovation. L'ATI a négligé les recherches de pointe comme l'apprentissage profond, en se concentrant excessivement sur l'éthique et la responsabilité, manquant ainsi le boom de l'IA générative. Cela reflète des problèmes courants dans la politique technologique britannique : des objectifs flous, une dépendance excessive aux universités et une réticence à abandonner les projets qui échouent. Cependant, le département défense et sécurité se distingue comme une exception réussie grâce à ses liens avec l'industrie et les agences de renseignement.

Claude 3.7 Sonnet d'Anthropic : des compétences de planification de l'IA démontrées dans Pokémon

2025-03-27
Claude 3.7 Sonnet d'Anthropic : des compétences de planification de l'IA démontrées dans Pokémon

Le dernier modèle linguistique d'Anthropic, Claude 3.7 Sonnet, fait preuve de capacités de planification impressionnantes en jouant à Pokémon. Contrairement aux modèles d'IA précédents qui erraient sans but ou se retrouvaient bloqués en boucle, Sonnet planifie à l'avance, se souvient de ses objectifs et s'adapte lorsque les stratégies initiales échouent. Bien que Sonnet ait encore des difficultés dans des scénarios complexes (comme rester bloqué sur le Mont Lune), nécessitant des améliorations de la compréhension des captures d'écran du jeu et de l'élargissement de la fenêtre de contexte, cela représente un progrès significatif dans les capacités de planification stratégique et de raisonnement à long terme de l'IA. Les chercheurs pensent que les démonstrations occasionnelles d'auto-conscience et d'adaptation stratégique de Sonnet suggèrent un énorme potentiel pour résoudre des problèmes du monde réel.

Le générateur d'images IA de ChatGPT déclenche un débat sur le droit d'auteur

2025-03-27
Le générateur d'images IA de ChatGPT déclenche un débat sur le droit d'auteur

Le nouveau générateur d'images IA de ChatGPT est devenu viral, les utilisateurs créant des images de style Studio Ghibli et déclenchant un débat sur le droit d'auteur. L'outil peut imiter les styles de studios spécifiques, comme le Studio Ghibli, et même transformer les images téléchargées par l'utilisateur dans le style choisi. Cette fonctionnalité, similaire à la fonction d'image IA de Google Gemini, soulève des inquiétudes concernant la violation du droit d'auteur, car elle recrée facilement les styles d'œuvres protégées par le droit d'auteur. Bien que des experts juridiques soutiennent que le style lui-même n'est pas protégé par le droit d'auteur, les ensembles de données utilisés pour entraîner le modèle peuvent être problématiques, laissant la question dans une zone grise juridique. OpenAI a déclaré qu'il permettait d'imiter des styles larges, et non ceux d'artistes individuels, mais cela ne résout pas complètement la controverse.

NotaGen : Un compositeur d'IA maîtrisant la musique classique grâce à l'apprentissage par renforcement

2025-03-26
NotaGen : Un compositeur d'IA maîtrisant la musique classique grâce à l'apprentissage par renforcement

NotaGen, un modèle de génération de musique par IA, est pré-entraîné sur 1,6 million de morceaux de musique pour apprendre les structures musicales fondamentales. Il est ensuite finement ajusté sur un ensemble de données sélectionné de 8 948 partitions de musique classique, améliorant ainsi sa musicalité. Pour affiner davantage la musicalité et le contrôle des invites, les chercheurs ont utilisé CLaMP-DPO, une méthode d'apprentissage par renforcement utilisant l'optimisation directe des préférences et CLaMP 2 comme évaluateur. Les expériences ont montré que CLaMP-DPO améliorait efficacement à la fois la contrôlabilité et la musicalité de divers modèles de génération de musique, soulignant sa large applicabilité.

Analyse des accidents de véhicules autonomes Waymo : les humains sont-ils les vrais coupables ?

2025-03-26
Analyse des accidents de véhicules autonomes Waymo : les humains sont-ils les vrais coupables ?

Cet article analyse 38 accidents graves impliquant des véhicules autonomes Waymo entre juillet 2024 et février 2025. Étonnamment, la grande majorité de ces accidents n'ont pas été causés par les véhicules Waymo eux-mêmes, mais par d'autres véhicules conduisant de manière imprudente, comme la vitesse excessive et le non-respect des feux rouges. Les données de Waymo montrent que ses véhicules autonomes ont un taux d'accidents beaucoup plus faible que les conducteurs humains. Même si tous les accidents étaient imputés à Waymo, son bilan de sécurité serait toujours nettement meilleur que celui des conducteurs humains. Par rapport à la conduite humaine, Waymo a fait des progrès significatifs dans la réduction des accidents, notamment ceux entraînant des blessures.

IA

TAO de Databricks : surpasser l'ajustement fin avec des données non étiquetées

2025-03-26
TAO de Databricks : surpasser l'ajustement fin avec des données non étiquetées

Databricks présente TAO (Test-time Adaptive Optimization), une nouvelle méthode d'ajustement fin des modèles ne nécessitant que des données d'utilisation non étiquetées. Contrairement à l'ajustement fin traditionnel, TAO utilise le calcul en temps de test et l'apprentissage par renforcement pour améliorer les performances du modèle en fonction d'exemples d'entrée précédents. Étonnamment, TAO surpasse l'ajustement fin traditionnel, rapprochant les modèles open source comme Llama d'une qualité comparable à celle de modèles propriétaires coûteux comme GPT-4. Cette innovation est disponible en préversion pour les clients Databricks et alimentera les futurs produits.

1 2 26 27 28 30 32 33 34 40 41