Expliquer les décisions des grands modèles de langage à l'aide des valeurs de Shapley

2024-12-28
Expliquer les décisions des grands modèles de langage à l'aide des valeurs de Shapley

Les grands modèles de langage (LLM) offrent des possibilités passionnantes pour simuler le comportement humain, mais leurs processus de prise de décision manquent de transparence. Cet article présente une nouvelle approche basée sur les valeurs de Shapley pour interpréter le comportement des LLM et quantifier la contribution de chaque composant de l'invite à la sortie du modèle. Grâce à deux applications, l'étude révèle que les décisions des LLM sont sensibles au « bruit des jetons », où le modèle réagit de manière disproportionnée aux jetons ayant un contenu informatif minimal. Cela soulève des inquiétudes quant à la robustesse et à la généralisation des informations obtenues à partir des LLM dans la simulation du comportement humain, soulignant la nécessité d'une ingénierie minutieuse des invites et d'une compréhension plus nuancée de leurs limites lorsqu'ils sont utilisés dans la recherche.

Lire plus

Invariants : Calcul et applications

2024-12-27
Invariants : Calcul et applications

Un article tutoriel publié dans les actes d'ISSAC 2023 explore le calcul et les applications des invariants en mathématiques. L'article se concentre sur l'interaction entre les théories des invariants différentiels et algébriques, présentant une adaptation algébrique de la méthode du repère mobile de la géométrie différentielle pour calculer un ensemble générateur d'invariants rationnels. Il discute également du rôle des signatures d'invariants différentiels dans la résolution des problèmes d'équivalence en géométrie et en algèbre, et des défis liés à la conception d'algorithmes basés sur ce concept.

Lire plus

Des politiques adversariales battent les IA de Go surhumaines

2024-12-24
Des politiques adversariales battent les IA de Go surhumaines

Des chercheurs ont atteint un taux de victoire supérieur à 97 % contre KataGo, un système d'IA de Go de pointe, en entraînant des politiques adversariales. Ces adversaires n'ont pas gagné en jouant bien au Go, mais en trompant KataGo pour qu'il commette des erreurs critiques. L'attaque s'est transférée sans réentraînement à d'autres IA de Go surhumaines et était suffisamment simple pour que des experts humains puissent la reproduire sans assistance algorithmique. La vulnérabilité a persisté même après que KataGo a été entraîné de manière adversariale à se défendre contre elle, soulignant des modes de défaillance surprenants même dans les systèmes d'IA surhumains.

Lire plus

Des données sur les supernovae suggèrent un changement fondamental dans les modèles cosmologiques

2024-12-23
Des données sur les supernovae suggèrent un changement fondamental dans les modèles cosmologiques

Une nouvelle étude présente une analyse statistique indépendante du modèle cosmologique de l'ensemble de données spectroscopiques de supernovae de Type Ia Pantheon+, améliorant la méthodologie standard utilisée par Lane et al. En utilisant uniquement l'équation de Tripp pour la standardisation des supernovae, l'étude évite les corrélations potentielles dans les distributions d'étirement et de couleur. Les résultats favorisent fortement la cosmologie « Timescape » par rapport au modèle ΛCDM standard pour expliquer les données, fournissant des preuves de la nécessité de revoir les fondements de la cosmologie théorique et observationnelle. Même en restreignant l'échantillon aux décalages vers le rouge au-delà des échelles conventionnelles d'homogénéité statistique (z > 0,075), Timescape reste préféré à ΛCDM.

Lire plus

L'apprentissage par renforcement hors ligne améliore le raisonnement en plusieurs étapes des LLMs

2024-12-23
L'apprentissage par renforcement hors ligne améliore le raisonnement en plusieurs étapes des LLMs

Les chercheurs présentent OREO, une méthode d'apprentissage par renforcement hors ligne conçue pour améliorer les capacités de raisonnement en plusieurs étapes des grands modèles de langage (LLMs). S'appuyant sur l'apprentissage par renforcement à entropie maximale, OREO apprend conjointement un modèle de politique et une fonction de valeur en optimisant l'équation de Bellman douce. Cela résout les limitations de l'optimisation directe des préférences (DPO) dans le raisonnement en plusieurs étapes, notamment le besoin de données de préférence appariées étendues et le défi de l'attribution de crédit efficace. Les expériences montrent la supériorité d'OREO par rapport aux méthodes d'apprentissage hors ligne existantes sur les benchmarks impliquant le raisonnement mathématique et le contrôle d'agent incarné.

Lire plus

Le problème de la tokenisation prouvé NP-complet, doublant les défis de la compression de données

2024-12-22
Le problème de la tokenisation prouvé NP-complet, doublant les défis de la compression de données

Un article publié sur arXiv prouve la complétude NP de deux variantes de la tokenisation, définie comme le problème de compression d'un ensemble de données à au plus δ symboles, soit en trouvant un vocabulaire directement (tokenisation directe), soit en sélectionnant une séquence d'opérations de fusion (tokenisation ascendante). Cette découverte a des implications significatives pour la compression de données et le traitement du langage naturel, soulignant l'immense défi de résoudre efficacement le problème de la tokenisation pour les ensembles de données à grande échelle.

Lire plus

Progrès révolutionnaire : compilation sécurisée de C vers Rust

2024-12-21
Progrès révolutionnaire : compilation sécurisée de C vers Rust

Des chercheurs ont mis au point une nouvelle méthode permettant de compiler du code C en Rust de manière sécurisée. Cette technique utilise l'analyse statique et la traduction dirigée par les types pour éviter de dépendre des blocs `unsafe` de Rust, garantissant ainsi la sécurité mémoire. La méthode a été appliquée avec succès à des codes de la bibliothèque cryptographique HACL* et des bibliothèques EverParse, donnant naissance à une bibliothèque cryptographique moderne vérifiée de 80 000 lignes en Rust pur, une première du genre.

Lire plus

Classification de sécurité légère utilisant des modèles de langage élagués

2024-12-19
Classification de sécurité légère utilisant des modèles de langage élagués

Des chercheurs présentent la Classification Améliorée par Couches (LEC), une nouvelle technique légère pour la classification de la sécurité du contenu et de l'injection d'invite dans les grands modèles de langage (LLM). LEC entraîne un classificateur de régression logistique pénalisée (PLR) optimisé sur l'état caché de la couche de transformateur intermédiaire optimale d'un LLM. En combinant l'efficacité du PLR avec la compréhension sophistiquée du langage des LLM, LEC surpasse GPT-4o et les modèles spécialisés. Les petits modèles polyvalents comme Qwen 2.5 et les architectures comme DeBERTa v3 s'avèrent être de robustes extracteurs de caractéristiques, s'entraînant efficacement avec moins de 100 exemples de haute qualité. Il est crucial que les couches de transformateur intermédiaires surpassent généralement la couche finale. Un seul LLM polyvalent peut classer la sécurité du contenu, détecter les injections d'invite et générer une sortie, ou les LLM plus petits peuvent être élagués à leur couche intermédiaire optimale pour l'extraction de caractéristiques. Des résultats cohérents sur différentes architectures suggèrent que l'extraction robuste de caractéristiques est inhérente à de nombreux LLM.

Lire plus

Les algorithmes de tri classiques révèlent des compétences inattendues dans un modèle minimal d'intelligence basale

2024-12-19
Les algorithmes de tri classiques révèlent des compétences inattendues dans un modèle minimal d'intelligence basale

Une nouvelle étude utilise les algorithmes de tri classiques comme modèle de morphogenèse, remettant en question la sagesse conventionnelle sur ces algorithmes. En brisant les hypothèses de contrôle descendant et de matériel parfaitement fiable, les chercheurs ont découvert que les tableaux d'éléments autonomes se trient de manière plus fiable et robuste que les implémentations traditionnelles, même en présence d'erreurs. De manière surprenante, ces algorithmes présentent la capacité de réduire temporairement les progrès pour contourner les défauts et un comportement de clustering inattendu entre les éléments dans les tableaux chimériques suivant différents algorithmes. Cette découverte offre une nouvelle perspective sur l'intelligence diverse, démontrant comment des formes basales d'intelligence peuvent émerger dans des systèmes simples sans encodage explicite dans leur mécanique sous-jacente.

Lire plus

Évolution culturelle de la coopération entre agents LLM

2024-12-18
Évolution culturelle de la coopération entre agents LLM

Des chercheurs ont étudié si une « société » d'agents de grands modèles de langage (LLM) peut apprendre des normes sociales mutuellement bénéfiques malgré les incitations à la défection. Les expériences ont révélé des différences significatives dans l'évolution de la coopération entre les modèles de base, Claude 3.5 Sonnet surpassant largement Gemini 1.5 Flash et GPT-4o. De plus, Claude 3.5 Sonnet a utilisé un mécanisme de punition coûteux pour obtenir des scores encore plus élevés, une prouesse non reproduite par les autres modèles. Cette étude propose une nouvelle référence pour les LLM, axée sur les implications sociales du déploiement d'agents LLM, offrant des informations sur la construction d'agents d'IA plus robustes et coopératifs.

Lire plus

Plus d'Adam : L'adaptation du taux d'apprentissage à l'initialisation est tout ce dont vous avez besoin

2024-12-18
Plus d'Adam : L'adaptation du taux d'apprentissage à l'initialisation est tout ce dont vous avez besoin

Les chercheurs présentent SGD-SaI, un nouvel optimiseur améliorant la descente de gradient stochastique. SGD-SaI traite les déséquilibres d'entraînement en adaptant le taux d'apprentissage à l'initialisation pour différents groupes de paramètres, en fonction de leur rapport signal/bruit du gradient. Bien plus efficace en mémoire qu'AdamW, SGD-SaI égale ou surpasse les performances d'AdamW sur diverses tâches basées sur les Transformers, incluant la classification ImageNet et le pré-entraînement des LLM. Sa robustesse et son aspect pratique sont démontrés dans diverses applications, en faisant une alternative convaincante.

Lire plus
IA

Le Jailbreaking Best-of-N : Une nouvelle attaque contre les systèmes d'IA

2024-12-15
Le Jailbreaking Best-of-N : Une nouvelle attaque contre les systèmes d'IA

Des chercheurs ont développé un nouvel algorithme d'attaque IA appelé Best-of-N (BoN). Cet algorithme boîte noire modifie à plusieurs reprises les invites — en mélangeant aléatoirement ou en mettant en majuscules le texte, par exemple — jusqu'à ce qu'il obtienne une réponse nuisible du système IA. Le BoN a atteint des taux de réussite d'attaque (ASR) impressionnants sur des modèles de langage fermés tels que GPT-4o (89 %) et Claude 3.5 Sonnet (78 %), contournant efficacement les défenses existantes. De plus, le BoN s'étend facilement aux modèles de langage visuel et audio, soulignant la vulnérabilité même des systèmes IA avancés aux variations d'entrée apparemment inoffensives. Cette recherche souligne d'importantes préoccupations de sécurité dans le domaine de l'IA.

Lire plus

Usine d'insectes cyborgs automatisée : système d'assemblage automatique pour construire des robots hybrides insectes-ordinateurs

2024-12-15
Usine d'insectes cyborgs automatisée : système d'assemblage automatique pour construire des robots hybrides insectes-ordinateurs

Des chercheurs ont mis au point un système automatisé pour assembler des robots hybrides insectes-ordinateurs. Ce système utilise un bras robotique guidé par la vision pour implanter précisément des électrodes bipolaires personnalisées sur le dos de blattes siblantes de Madagascar. L'ensemble du processus ne prend que 68 secondes, et les robots assemblés atteignent un contrôle de la direction et de la décélération comparable à celui des systèmes assemblés manuellement. Un système multi-agents de 4 robots a réussi à naviguer sur un terrain accidenté, démontrant la faisabilité de la production de masse et des applications dans le monde réel. Cette recherche ouvre la voie à une production et un déploiement à grande échelle de robots insectes.

Lire plus

CCxTrust : Plateforme de calcul confidentiel basée sur la confiance collaborative TEE et TPM

2024-12-12
CCxTrust : Plateforme de calcul confidentiel basée sur la confiance collaborative TEE et TPM

CCxTrust est une plateforme de calcul confidentiel innovante qui combine les avantages des environnements d'exécution fiables (TEE) et des modules de plateforme sécurisés (TPM) pour établir un cadre de confiance collaboratif. En tirant parti de la racine de confiance (RoT) en boîte noire intégrée aux TEE de processeur et de la RoT en boîte blanche flexible des TPM, CCxTrust assure la protection de bout en bout des données et modèles sensibles, surmontant les limites liées à la dépendance à une seule RoT matérielle. La plateforme implémente des racines de confiance pour la mesure (RTM) indépendantes et une racine de confiance pour les rapports (RTR) collaborative, améliorée par un protocole d'attestation composite pour une sécurité et une efficacité accrues. Les résultats expérimentaux démontrent des avantages de performance significatifs.

Lire plus

Percée dans l'analyse d'atteignabilité du système de noms de domaine

2024-12-12
Percée dans l'analyse d'atteignabilité du système de noms de domaine

Des chercheurs ont présenté la première procédure de décision pour la vérification du système de noms de domaine (DNS), établissant sa complexité comme étant de 2ExpTime. L'étude formalise la sémantique du DNS et utilise une nouvelle abstraction basée sur les langages positivement préfixe-testables, réduisant le problème de vérification du DNS au problème de vérification pour les systèmes pushdown. Cette approche modélise efficacement les vecteurs d'attaque dans le DNS, tels que les attaques d'amplification et le blackholing par réécriture, fournissant une nouvelle base théorique pour garantir la sécurité et la fiabilité du DNS.

Lire plus
1 2 3 4 5 6 7 8 10 Next →