arXivLabs : Projets expérimentaux avec des collaborateurs de la communauté

2025-02-03
arXivLabs : Projets expérimentaux avec des collaborateurs de la communauté

arXivLabs est un framework permettant aux collaborateurs de développer et de partager de nouvelles fonctionnalités arXiv directement sur notre site web. Les individus et les organisations qui travaillent avec arXivLabs ont adopté et accepté nos valeurs d'ouverture, de communauté, d'excellence et de confidentialité des données des utilisateurs. arXiv est engagé envers ces valeurs et ne travaille qu'avec des partenaires qui les respectent. Vous avez une idée de projet qui apportera de la valeur à la communauté arXiv ? En savoir plus sur arXivLabs.

Lire plus
Développement

arXivLabs : Projets expérimentaux avec des collaborateurs de la communauté

2025-02-02
arXivLabs : Projets expérimentaux avec des collaborateurs de la communauté

arXivLabs est un cadre qui permet aux collaborateurs de développer et de partager de nouvelles fonctionnalités d'arXiv directement sur notre site web. Les individus et les organisations qui travaillent avec arXivLabs ont adopté et accepté nos valeurs d'ouverture, de communauté, d'excellence et de confidentialité des données des utilisateurs. arXiv est engagé envers ces valeurs et ne travaille qu'avec des partenaires qui les respectent. Vous avez une idée de projet qui ajoutera de la valeur à la communauté d'arXiv ? En savoir plus sur arXivLabs.

Lire plus
Développement projet expérimental

arXivLabs : Expérimenter avec des fonctionnalités pilotées par la communauté

2025-02-01
arXivLabs : Expérimenter avec des fonctionnalités pilotées par la communauté

arXivLabs est un cadre permettant aux collaborateurs de développer et de partager de nouvelles fonctionnalités arXiv directement sur le site Web. Les participants, à la fois individus et organisations, adhèrent aux valeurs d'arXiv : ouverture, communauté, excellence et confidentialité des données utilisateur. arXiv est engagé envers ces valeurs et ne s'associe qu'avec ceux qui les partagent. Vous avez une idée de projet qui bénéficiera à la communauté arXiv ? En savoir plus sur arXivLabs.

Lire plus

arXivLabs : Collaboration communautaire sur les fonctionnalités d'arXiv

2025-02-01
arXivLabs : Collaboration communautaire sur les fonctionnalités d'arXiv

arXivLabs est un cadre expérimental permettant aux collaborateurs de développer et de partager de nouvelles fonctionnalités d'arXiv directement sur le site web. Les participants doivent adhérer aux valeurs d'arXiv : ouverture, communauté, excellence et confidentialité des données utilisateur. Vous avez une idée pour améliorer la communauté arXiv ? En savoir plus sur arXivLabs.

Lire plus
Développement

arXivLabs : Projets expérimentaux avec des collaborateurs de la communauté

2025-02-01
arXivLabs : Projets expérimentaux avec des collaborateurs de la communauté

arXivLabs est un framework permettant aux collaborateurs de développer et de partager de nouvelles fonctionnalités arXiv directement sur notre site web. Les individus et les organisations qui travaillent avec arXivLabs ont adopté et accepté nos valeurs d'ouverture, de communauté, d'excellence et de confidentialité des données utilisateur. arXiv s'engage à respecter ces valeurs et ne travaille qu'avec des partenaires qui les partagent. Vous avez une idée de projet qui ajoutera de la valeur à la communauté arXiv ? En savoir plus sur arXivLabs.

Lire plus
Technologie

arXivLabs : Développement de fonctionnalités arXiv piloté par la communauté

2025-02-01
arXivLabs : Développement de fonctionnalités arXiv piloté par la communauté

arXivLabs est un cadre permettant aux collaborateurs de développer et de partager de nouvelles fonctionnalités arXiv directement sur le site web. Les participants, individus et organisations, adhèrent aux valeurs d'arXiv : ouverture, communauté, excellence et confidentialité des données utilisateur. arXiv s'engage envers ces valeurs et ne collabore qu'avec des partenaires qui les partagent. Vous avez une idée pour améliorer la communauté arXiv ? En savoir plus sur arXivLabs.

Lire plus
Développement

arXivLabs : Projets expérimentaux avec des collaborateurs communautaires

2025-01-31
arXivLabs : Projets expérimentaux avec des collaborateurs communautaires

arXivLabs est un cadre permettant aux collaborateurs de développer et de partager de nouvelles fonctionnalités arXiv directement sur notre site web. Les individus et les organisations qui travaillent avec arXivLabs ont adopté et accepté nos valeurs d'ouverture, de communauté, d'excellence et de confidentialité des données des utilisateurs. arXiv s'engage envers ces valeurs et ne travaille qu'avec des partenaires qui les respectent. Vous avez une idée de projet qui ajoutera de la valeur à la communauté arXiv ? En savoir plus sur arXivLabs.

Lire plus
Développement projets expérimentaux

arXivLabs : Expérimentation avec la collaboration communautaire

2025-01-31
arXivLabs : Expérimentation avec la collaboration communautaire

arXivLabs est un cadre permettant aux collaborateurs de développer et de partager de nouvelles fonctionnalités directement sur le site Web d'arXiv. Les individus et les organisations qui travaillent avec arXivLabs ont adopté et accepté nos valeurs d'ouverture, de communauté, d'excellence et de confidentialité des données utilisateur. arXiv s'engage à respecter ces valeurs et ne travaille qu'avec des partenaires qui les partagent. Vous avez une idée de projet qui ajoutera de la valeur à la communauté arXiv ? En savoir plus sur arXivLabs.

Lire plus
Développement plateforme ouverte

arXivLabs : Projets expérimentaux avec des collaborateurs de la communauté

2025-01-31
arXivLabs : Projets expérimentaux avec des collaborateurs de la communauté

arXivLabs est un framework permettant aux collaborateurs de développer et de partager de nouvelles fonctionnalités arXiv directement sur notre site web. Les individus et les organisations qui travaillent avec arXivLabs ont adopté et accepté nos valeurs d'ouverture, de communauté, d'excellence et de confidentialité des données utilisateur. arXiv s'engage envers ces valeurs et ne travaille qu'avec des partenaires qui les respectent. Vous avez une idée de projet qui ajoutera de la valeur à la communauté arXiv ? En savoir plus sur arXivLabs.

Lire plus

Un Algorithme de Transformation de Fourier Quantique Plus Rapide

2025-01-27
Un Algorithme de Transformation de Fourier Quantique Plus Rapide

Ronit Shah présente un algorithme amélioré pour la Transformation de Fourier Quantique (TFQ). Traditionnellement, la TFQ approximative nécessite Θ(n log n) portes, et la TFQ exacte nécessite Θ(n²) portes. Le nouvel algorithme, exploitant une nouvelle partition récursive des qubits, réduit le coût de la TFQ approximative à Θ(n(log log n)²) portes et de la TFQ exacte à Θ(n(log n)²) portes. Cette avancée promet des gains d'efficacité significatifs dans le calcul quantique.

Lire plus

DeepSeek-R1 : Améliorer les capacités de raisonnement des LLM grâce à l'apprentissage par renforcement

2025-01-25
DeepSeek-R1 : Améliorer les capacités de raisonnement des LLM grâce à l'apprentissage par renforcement

DeepSeek-AI présente ses modèles de raisonnement de première génération, DeepSeek-R1-Zero et DeepSeek-R1. DeepSeek-R1-Zero, un modèle entraîné par apprentissage par renforcement (RL) à grande échelle sans réglage fin supervisé (SFT) comme étape préliminaire, démontre des capacités de raisonnement remarquables. Grâce au RL, DeepSeek-R1-Zero émerge naturellement avec de nombreux comportements de raisonnement puissants et intrigants. Cependant, il rencontre des défis tels que la faible lisibilité et le mélange de langues. Pour résoudre ces problèmes et améliorer encore les performances de raisonnement, nous présentons DeepSeek-R1, qui intègre un entraînement multi-étapes et des données de démarrage à froid avant le RL. DeepSeek-R1 atteint des performances comparables à celles d'OpenAI-o1-1217 sur les tâches de raisonnement. Pour soutenir la communauté de recherche, nous publions en open source DeepSeek-R1-Zero, DeepSeek-R1 et six modèles denses (1.5B, 7B, 8B, 14B, 32B, 70B) distillés de DeepSeek-R1 basés sur Qwen et Llama.

Lire plus

Fondamentaux des grands modèles de langage : un nouveau livre qui décrypte les concepts clés

2025-01-23
Fondamentaux des grands modèles de langage : un nouveau livre qui décrypte les concepts clés

Un nouveau livre, "Fondamentaux des grands modèles de langage", vient de paraître. Au lieu de viser une couverture exhaustive des technologies de pointe, il explore en profondeur les concepts fondamentaux des grands modèles de langage. Structuré en quatre chapitres couvrant le pré-entraînement, les modèles génératifs, les techniques d'invite et les méthodes d'alignement, le livre s'adresse aux étudiants, professionnels et praticiens du traitement du langage naturel et des domaines connexes. Il constitue une référence précieuse pour toute personne intéressée par les grands modèles de langage.

Lire plus
IA

Compression sans perte des ID de vecteurs améliore la recherche approximative des plus proches voisins

2025-01-23
Compression sans perte des ID de vecteurs améliore la recherche approximative des plus proches voisins

Des chercheurs présentent un schéma de compression sans perte pour les ID de vecteurs afin de résoudre le coût de stockage élevé des index dans la recherche approximative des plus proches voisins. En exploitant le fait que l'ordre des ID est sans importance dans de nombreuses structures d'index et en utilisant des systèmes numériques asymétriques ou des arbres à ondelettes, la méthode permet d'atteindre jusqu'à 7 fois la compression des ID de vecteurs sans affecter la précision ni le temps d'exécution de la recherche. Cela se traduit par une réduction de 30 % de la taille de l'index pour les ensembles de données à l'échelle du milliard. De plus, l'approche peut également compresser sans perte les codes de vecteurs quantifiés en exploitant les sous-optimalités de l'algorithme de quantification original.

Lire plus

FLAME : Un petit modèle linguistique pour les formules de tableur

2025-01-22
FLAME : Un petit modèle linguistique pour les formules de tableur

Les grands modèles linguistiques sont coûteux à entraîner et à déployer pour aider à la création de formules Excel. Cet article présente FLAME, un modèle basé sur Transformer entraîné exclusivement sur des formules Excel. Avec seulement 60 millions de paramètres et une fraction des données d'entraînement utilisées par les modèles plus grands, FLAME atteint des performances compétitives, voire supérieures, pour les tâches de réparation, de complétion et de recherche de formules, par rapport à des modèles comme Codex et CodeT5. Cela est dû à ses nouveaux objectifs de pré-entraînement et à son tokeniseur spécifique à Excel.

Lire plus
Développement modèle linguistique formule

Attention par Produit Tensoriel : Tout ce dont vous avez besoin

2025-01-22
Attention par Produit Tensoriel : Tout ce dont vous avez besoin

L'adaptation à l'échelle des modèles linguistiques pour gérer des séquences d'entrée plus longues nécessite généralement de grands caches clé-valeur (KV), entraînant une surcharge mémoire importante pendant l'inférence. Cet article propose l'Attention par Produit Tensoriel (TPA), un nouveau mécanisme d'attention qui utilise des décompositions tensorielles pour représenter de manière compacte les requêtes, les clés et les valeurs, réduisant ainsi considérablement la taille du cache KV pendant l'inférence. En factorisant ces représentations en composants de faible rang contextuels (factorisation contextuelle) et en les intégrant de manière transparente avec RoPE, la TPA améliore la qualité du modèle tout en maintenant l'efficacité mémoire. Sur la base de la TPA, les auteurs introduisent le Transformateur d'Attention par Produit Tensoriel (T6), une nouvelle architecture de modèle pour la modélisation de séquences. Une évaluation empirique approfondie sur des tâches de modélisation linguistique montre que T6 surpasse les modèles de base standard du Transformer, notamment MHA, MQA, GQA et MLA, sur diverses métriques, notamment la perplexité et une gamme de benchmarks d'évaluation reconnus. Notamment, l'efficacité mémoire de la TPA permet le traitement de séquences beaucoup plus longues sous des contraintes de ressources fixes, ce qui répond à un défi d'évolutivité critique dans les modèles linguistiques modernes. Le code est disponible.

Lire plus

ELIZA Réanimée : Le Premier Chatbot au Monde Restauré

2025-01-18
ELIZA Réanimée : Le Premier Chatbot au Monde Restauré

Des chercheurs ont réussi à faire revivre ELIZA, généralement considéré comme le premier chatbot au monde, sur un système CTSS restauré, le premier système de partage de temps au monde (émulé sur un IBM 7094). Utilisant des imprimés originaux, le code MAD-SLIP et des documents de support trouvés dans les archives du Professeur Weizenbaum au MIT, ils ont recréé ELIZA et son célèbre script DOCTOR. L'ensemble du projet est open-source, permettant à quiconque disposant d'un système d'exploitation de type Unix d'exécuter ce chatbot révolutionnaire.

Lire plus
IA

Décryptage des mathématiques derrière le jeu de mots quotidien du NYT 'Waffle'

2025-01-17
Décryptage des mathématiques derrière le jeu de mots quotidien du NYT 'Waffle'

Un article sur arXiv explore les mathématiques derrière le jeu de mots quotidien du New York Times, Waffle. L'auteur S.P. Glasby se penche sur les propriétés combinatoires du jeu, expliquant pourquoi certains puzzles sont faciles tandis que d'autres sont exceptionnellement difficiles. La recherche révèle qu'une solution parfaite nécessite précisément 11 orbites parmi les 21 carrés, avec au moins une orbite de longueur 1. Cela fournit un cadre mathématique pour comprendre et potentiellement améliorer des jeux de mots similaires.

Lire plus
Jeux

Titans : Une nouvelle architecture neuronale pour apprendre à mémoriser au moment des tests

2025-01-16
Titans : Une nouvelle architecture neuronale pour apprendre à mémoriser au moment des tests

Les chercheurs présentent Titans, une nouvelle architecture neuronale qui combine un module de mémoire neuronale et un mécanisme d'attention pour mémoriser efficacement le contexte historique à long terme. Contrairement aux modèles récurrents traditionnels et aux mécanismes d'attention, Titans démontre une efficacité et une précision supérieures dans la gestion des longues séquences, excellant notamment dans les tâches de "recherche d'une aiguille dans une botte de foin". Il surpasse les Transformers et les modèles récurrents linéaires récents sur diverses tâches, notamment la modélisation du langage, le raisonnement de bon sens, la génomique et les séries temporelles, et s'adapte à des fenêtres de contexte supérieures à 2 millions de jetons.

Lire plus

Vers le raisonnement de système 2 dans les LLMs : apprendre à penser avec Meta Chain-of-Thought

2025-01-10
Vers le raisonnement de système 2 dans les LLMs : apprendre à penser avec Meta Chain-of-Thought

Les chercheurs proposent un nouveau cadre, Meta Chain-of-Thought (Meta-CoT), qui étend la méthode Chain-of-Thought (CoT) traditionnelle en modélisant explicitement le raisonnement sous-jacent nécessaire pour arriver à un CoT particulier. Meta-CoT utilise la supervision de processus, la génération de données synthétiques et des algorithmes de recherche. L'article décrit un pipeline d'entraînement intégrant l'ajustement d'instructions avec des traces de recherche linéarisées et l'apprentissage par renforcement. Ce travail fournit une feuille de route pour activer Meta-CoT dans les LLMs, promettant un raisonnement plus puissant et plus humain en IA.

Lire plus

Remettre en question le théorème CAP : une conjecture de progrès partiel sous asynchronisme

2025-01-08
Remettre en question le théorème CAP : une conjecture de progrès partiel sous asynchronisme

Un nouvel article remet en question le célèbre théorème CAP. Les auteurs émettent l’hypothèse qu’un progrès partiel est possible en cas de partition du réseau, ce qui signifie que le système peut rester réactif pour un sous-ensemble de clients et atteindre un débit non nul en cas de panne. Ils présentent la conception de leur protocole de consensus CASSANDRA, permettant aux répliques partitionnées d’ordonner les requêtes des clients, offrant ainsi une voie potentielle vers des systèmes à la fois cohérents et disponibles dans une certaine mesure, même pendant les partitions. Cette recherche propose une approche novatrice pour construire des systèmes distribués plus robustes.

Lire plus

Dix ans de revue : Plongez dans la détection d’anomalies de séries temporelles

2025-01-06
Dix ans de revue : Plongez dans la détection d’anomalies de séries temporelles

Les progrès de la technologie de collecte de données et l’explosion des données en streaming soulignent le besoin crucial d’analyse de séries temporelles. Cet article propose une revue de dix ans de la détection d’anomalies de séries temporelles, englobant des méthodes allant des mesures statistiques traditionnelles à l’essor des algorithmes d’apprentissage automatique. Il présente une taxonomie centrée sur les processus pour catégoriser et résumer les solutions existantes, offrant une méta-analyse de la littérature et soulignant les tendances générales du domaine. Cette étude exhaustive sert de ressource précieuse pour les chercheurs.

Lire plus

Des scientifiques décryptent le code du Cacio e Pepe parfait

2025-01-04
Des scientifiques décryptent le code du Cacio e Pepe parfait

Une équipe de scientifiques s'est penchée sur l'art culinaire, plus précisément sur le plat italien classique Cacio e Pepe, pour percer les secrets de sa texture crémeuse parfaite. Leurs recherches ont révélé que la concentration d'amidon est le facteur clé influençant la stabilité de la sauce. Des concentrations d'amidon inférieures à 1 % (par rapport à la masse du fromage) conduisent à la formation de grumeaux, un phénomène baptisé « phase mozzarella », qui donne une sauce séparée et désagréable. L'étude a également exploré l'impact du rapport fromage/eau à une concentration d'amidon fixe, observant une température critique de solution inférieure et développant un modèle d'énergie libre efficace minimal pour l'expliquer. Enfin, ils ont présenté une recette optimisée scientifiquement, garantissant un Cacio e Pepe impeccable et constant.

Lire plus

Reproduire OpenAI o1 : Une feuille de route du point de vue de l’apprentissage par renforcement

2025-01-03
Reproduire OpenAI o1 : Une feuille de route du point de vue de l’apprentissage par renforcement

Un nouvel article explore la voie à suivre pour reproduire le modèle énigmatique o1 d’OpenAI, du point de vue de l’apprentissage par renforcement. Les chercheurs affirment que la puissante capacité de raisonnement de o1 ne provient pas d’une seule technique, mais de la synergie de quatre composants clés : l’initialisation de la politique, la conception de la récompense, la recherche et l’apprentissage. L’initialisation de la politique dote le modèle d’un raisonnement semblable à celui d’un humain ; la conception de la récompense fournit des signaux denses et efficaces qui guident la recherche et l’apprentissage ; la recherche génère des solutions de haute qualité pendant l’entraînement et les tests ; l’apprentissage utilise les données de la recherche pour améliorer la politique, obtenant finalement de meilleures performances. Cet article offre des informations précieuses pour comprendre et reproduire o1, ouvrant de nouvelles voies pour le développement des LLM.

Lire plus

4,5 Millions d'Étoiles Fausses sur GitHub : Une Compétition de Popularité Sombre

2025-01-02
4,5 Millions d'Étoiles Fausses sur GitHub : Une Compétition de Popularité Sombre

Une nouvelle étude révèle 4,5 millions d'étoiles suspectées d'être fausses sur GitHub, principalement utilisées pour promouvoir des dépôts de logiciels malveillants de courte durée déguisés en logiciels piratés, en triches de jeux ou en bots de cryptomonnaie. Les chercheurs ont développé StarScout, un outil permettant de détecter les comportements anormaux liés aux étoiles. L'étude montre une augmentation rapide de l'activité d'étoiles fausses depuis 2024. Bien que les utilisateurs qui attribuent des étoiles fausses ne diffèrent pas significativement des utilisateurs moyens en termes de caractéristiques de profil, leurs schémas d'activité sont hautement anormaux. Bien qu'elles offrent des avantages promotionnels à court terme, les étoiles fausses finissent par devenir un fardeau à long terme. Cette recherche a des implications importantes pour les modérateurs de plateformes, les praticiens de l'open source et les chercheurs en sécurité de la chaîne d'approvisionnement.

Lire plus
Technologie

TinyStories : Des modèles linguistiques de petite taille peuvent-ils encore produire du texte anglais cohérent ?

2025-01-02
TinyStories : Des modèles linguistiques de petite taille peuvent-ils encore produire du texte anglais cohérent ?

Des chercheurs présentent TinyStories, un ensemble de données synthétique de courtes histoires utilisant uniquement le vocabulaire compris par des enfants typiques de 3 à 4 ans, généré par GPT-3.5 et GPT-4. Ils démontrent que les modèles linguistiques entraînés sur TinyStories, même ceux comportant moins de 10 millions de paramètres et des architectures simples (un seul bloc transformateur), peuvent générer des histoires cohérentes et fluides de plusieurs paragraphes, faisant preuve d’une grammaire et d’un raisonnement étonnamment bons. Cela remet en question l’idée que la génération de texte cohérent nécessite des modèles massifs et des architectures complexes, et introduit un nouveau paradigme d’évaluation utilisant GPT-4 pour noter les histoires générées comme le ferait un enseignant humain, surmontant ainsi les limites des benchmarks standard.

Lire plus

Ingénierie de l'activation : manipulation des traits de personnalité dans les LLM

2024-12-31
Ingénierie de l'activation : manipulation des traits de personnalité dans les LLM

Un article sur arXiv explore une nouvelle méthode pour identifier et manipuler les traits de personnalité dans les grands modèles de langage (LLM) à l'aide de l'« ingénierie de l'activation ». Inspirés par des recherches antérieures sur le refus et la direction des LLM, les chercheurs proposent une technique pour ajuster les directions d'activation liées aux traits de personnalité, permettant un réglage fin dynamique de la personnalité du LLM. Ce travail contribue à une meilleure compréhension de l'interprétabilité des LLM tout en soulevant des considérations éthiques cruciales.

Lire plus

Au-delà de la Moyenne des Gradients dans l'Optimisation Parallèle : Robustesse Améliorée grâce au Filtrage d'Accord des Gradients

2024-12-30
Au-delà de la Moyenne des Gradients dans l'Optimisation Parallèle : Robustesse Améliorée grâce au Filtrage d'Accord des Gradients

Cet article présente le Filtrage d'Accord des Gradients (FAG), une nouvelle méthode pour améliorer la moyenne des gradients dans l'optimisation de l'apprentissage profond distribué. Les méthodes traditionnelles moyennent les gradients de micro-lots pour calculer un gradient de macro-lot, mais cela peut conduire à des gradients orthogonaux ou négativement corrélés aux stades ultérieurs de l'entraînement, entraînant un sur-apprentissage. Le FAG réduit la variance du gradient en calculant la distance cosinus entre les micro-gradients et en filtrant les mises à jour conflictuelles avant la moyenne. Les expériences sur des benchmarks de classification d'images tels que CIFAR-100 et CIFAR-100N-Fine montrent que le FAG améliore significativement la précision de validation, même avec des tailles de micro-lots plus petites, atteignant jusqu'à 18,2 % d'amélioration par rapport aux approches traditionnelles tout en réduisant le coût de calcul.

Lire plus

Évaluation des capacités de génération de code des LLMs : Présentation de MultiCodeBench

2024-12-30
Évaluation des capacités de génération de code des LLMs : Présentation de MultiCodeBench

Les assistants de programmation basés sur l’IA et alimentés par des grands modèles de langage (LLM) de code sont devenus de plus en plus répandus, augmentant considérablement la productivité des développeurs. Cependant, les benchmarks existants de génération de code se concentrent principalement sur des scénarios à usage général, laissant les performances des LLM dans des domaines d’application spécifiques largement inconnues. Cet article présente MultiCodeBench, un nouveau benchmark composé de 2 400 tâches de programmation dans 12 domaines populaires de développement de logiciels et 15 langages de programmation. Des expériences sur onze LLM principaux révèlent leurs performances en matière de génération de code dans différents domaines, offrant des informations pratiques aux développeurs pour la sélection des LLM et des conseils aux développeurs de modèles pour améliorer les capacités de génération de code spécifiques à un domaine.

Lire plus
Développement Génération de Code

Percée dans l'évaluation des grands modèles de langage pour la génération de tests unitaires

2024-12-30
Percée dans l'évaluation des grands modèles de langage pour la génération de tests unitaires

Des chercheurs ont mené une évaluation complète du potentiel des grands modèles de langage (LLM) dans l'automatisation de la génération de tests unitaires. Ils ont comparé les performances de cinq LLM open source au GPT-4 propriétaire et à l'outil traditionnel Evosuite sur 17 projets Java, en étudiant l'impact de différentes stratégies d'invite. L'étude a révélé que les LLM open source offrent des avantages en matière de confidentialité des données et surpassent les autres dans certaines tâches, mais a également mis en évidence les limites de la génération de tests unitaires basée sur les LLM. Cette recherche fournit des informations précieuses pour guider les futures applications des LLM dans ce domaine.

Lire plus

Confusion d'identité dans les LLM : une crise de confiance émerge

2024-12-30
Confusion d'identité dans les LLM : une crise de confiance émerge

Une étude récente révèle la prévalence de la "confusion d'identité" dans les grands modèles de langage (LLM). Les chercheurs ont constaté que plus de 25 % des LLM présentent une mauvaise représentation de leurs origines ou de leur identité, principalement due à des hallucinations du modèle plutôt qu'à une réplication ou une réutilisation. Cette confusion d'identité érode considérablement la confiance des utilisateurs, en particulier pour les tâches critiques telles que l'éducation et l'utilisation professionnelle, dépassant l'impact négatif des erreurs logiques. Les résultats mettent en évidence les risques systémiques posés par la confusion d'identité des LLM et appellent à une plus grande attention à la fiabilité et à la crédibilité du modèle.

Lire plus
1 2 3 4 5 6 7 9