Apertus : Un grand modèle linguistique multilingue entièrement ouvert

2025-09-06
Apertus : Un grand modèle linguistique multilingue entièrement ouvert

Apertus est un grand modèle linguistique (LLM) multilingue entièrement ouvert, doté de 70 milliards et 8 milliards de paramètres, prenant en charge plus de 1000 langues et un contexte long. Entraîné sur 15 billions de jetons de données ouvertes et entièrement conformes, il atteint des performances comparables à celles des modèles à code fermé. Apertus utilise une nouvelle fonction d'activation xIELU et l'optimiseur AdEMAMix, subissant un réglage fin supervisé et un alignement QRPO. Ses poids, ses données et les détails de son entraînement sont disponibles publiquement, en respectant le consentement de retrait des propriétaires de données et en évitant la mémorisation des données d'entraînement. Intégré à la bibliothèque transformers, Apertus prend en charge diverses méthodes de déploiement. Bien que puissant, les utilisateurs doivent être conscients des imprécisions et des biais potentiels de sa sortie.

Lire plus
IA

Qwen3-235B-A22B-Thinking-2507 : Amélioration majeure des modèles de raisonnement open source

2025-07-25
Qwen3-235B-A22B-Thinking-2507 : Amélioration majeure des modèles de raisonnement open source

Qwen3-235B-A22B-Thinking-2507 représente une amélioration significative des grands modèles de langage open source, avec des avancées révolutionnaires en matière de capacités de raisonnement. Il atteint des résultats de pointe en raisonnement logique, mathématiques, sciences, codage et benchmarks académiques, démontrant des performances supérieures sur diverses tâches complexes. Le modèle présente également des capacités générales améliorées telles que le suivi des instructions, l'utilisation d'outils, la génération de texte et l'alignement avec les préférences humaines, ainsi qu'une compréhension améliorée du contexte long de 256K. Il est important de noter que cette version fonctionne par défaut en « mode de réflexion » et est fortement recommandée pour les tâches de raisonnement complexes.

Lire plus

SmolLM3 : Un petit raisonneur multilingue à long contexte

2025-07-09
SmolLM3 : Un petit raisonneur multilingue à long contexte

SmolLM3 est un modèle linguistique multilingue open source de 3 milliards de paramètres qui offre un équilibre remarquable entre efficacité et performances. Surpassant Llama-3.2-3B et Qwen2.5-3B sur plusieurs benchmarks, il rivalise même avec des modèles plus grands de 4 milliards de paramètres. Prenant en charge 6 langues et disposant d'une longueur de contexte allant jusqu'à 128 000 tokens, SmolLM3 possède une capacité unique de raisonnement bimodal (think/no_think). Au-delà du modèle lui-même, les chercheurs publient le plan d'ingénierie complet, incluant les détails d'architecture, les mélanges de données et la méthodologie d'entraînement, une ressource précieuse pour quiconque construit ou étudie des modèles à cette échelle.

Lire plus

Nanonets-OCR-s : Au-delà de l'OCR traditionnel avec traitement intelligent des documents

2025-06-16
Nanonets-OCR-s : Au-delà de l'OCR traditionnel avec traitement intelligent des documents

Nanonets-OCR-s est un modèle OCR de pointe, image vers Markdown, qui surpasse l'extraction de texte traditionnelle. Il transforme les documents en Markdown structuré avec une reconnaissance intelligente du contenu et un étiquetage sémantique, idéal pour le traitement en aval par les grands modèles de langage (LLM). Ses principales fonctionnalités incluent la reconnaissance d'équations LaTeX, la description intelligente des images, la détection de signatures, l'extraction de filigranes, la gestion intelligente des cases à cocher et l'extraction de tableaux complexes. Le modèle peut être utilisé via transformers, vLLM ou docext.

Lire plus
IA

Penny-1.7B : Un modèle linguistique au style du journal irlandais du XIXe siècle

2025-06-02
Penny-1.7B : Un modèle linguistique au style du journal irlandais du XIXe siècle

Penny-1.7B est un modèle linguistique causal de 1,7 milliard de paramètres, affiné avec l'optimisation de politique relative de groupe (GRPO) pour imiter le style de prose du XIXe siècle de l'Irish Penny Journal de 1840. Un modèle de récompense distingue le texte original du journal des traductions modernes, maximisant l'authenticité. Idéal pour l'écriture créative, le contenu éducatif ou le pastiche stylistique en anglais irlandais victorien, mais non recommandé pour la vérification des faits contemporains.

Lire plus
IA

Nouveau modèle de langage DeepSeek-R1-0528 de 685 milliards de paramètres sur Hugging Face

2025-05-28
Nouveau modèle de langage DeepSeek-R1-0528 de 685 milliards de paramètres sur Hugging Face

Un nouveau grand modèle de langage, DeepSeek-R1-0528, doté de 685 milliards de paramètres, a été publié sur Hugging Face. Le modèle est disponible au format Safetensors et prend en charge les types de tenseurs tels que BF16, F8_E4M3 et F32. Actuellement, aucun fournisseur d'inférence n'a déployé le modèle, mais sa page Hugging Face fournit des détails tels que la fiche du modèle, les fichiers et les versions.

Lire plus
IA

Hugging Face lance un cours gratuit sur le MCP : Votre accès au protocole de contexte de modèle

2025-05-21
Hugging Face lance un cours gratuit sur le MCP : Votre accès au protocole de contexte de modèle

Hugging Face a lancé un cours gratuit sur le protocole de contexte de modèle (MCP) conçu pour faire passer les apprenants du niveau débutant au niveau expert. Ce cours couvre la théorie, la conception et la pratique du MCP, ainsi que la création d'applications à l'aide des SDK et des frameworks MCP établis. Les participants peuvent obtenir un certificat de réussite en terminant les exercices et en participant à des défis. Le programme comprend également des modules en collaboration avec les partenaires de Hugging Face, offrant un accès aux implémentations et outils MCP les plus récents. Les prérequis incluent une compréhension de base de l'IA et des LLM, des principes de développement logiciel et des API, et une expérience avec au moins un langage de programmation (des exemples en Python ou TypeScript sont fournis).

Lire plus
IA

Analyse critique : Le cas contre les agents d’IA totalement autonomes

2025-02-08
Analyse critique : Le cas contre les agents d’IA totalement autonomes

Cet article analyse de manière critique l’argument contre le développement d’agents d’IA totalement autonomes. S’il est structuré, rigoureux et met en évidence des risques réels, tels que les dangers pour la sécurité et les violations de la vie privée, il souffre d’une position trop absolue, d’une définition vague de « totalement autonome », d’une analyse risques-bénéfices déséquilibrée et d’une exploration insuffisante des stratégies d’atténuation. Il présente également des indices de déterminisme technologique. Des améliorations pourraient inclure l’atténuation du rejet absolu, la clarification de la définition de l’autonomie, l’équilibre de l’analyse, le développement de stratégies d’atténuation et le renforcement de la base empirique. En fin de compte, il s’agit d’une contribution précieuse au débat continu sur l’éthique de l’IA, mais pas d’une conclusion définitive.

Lire plus
IA

Open-R1 : Reproduction open source du modèle de raisonnement DeepSeek-R1

2025-01-28
Open-R1 : Reproduction open source du modèle de raisonnement DeepSeek-R1

Les capacités de raisonnement impressionnantes du modèle DeepSeek-R1 ont captivé la communauté IA, mais ses détails d'entraînement restent non divulgués. Le projet Open-R1 vise à reproduire complètement DeepSeek-R1 en open source, incluant les jeux de données et le pipeline d'entraînement. Cela impliquera la distillation d'un jeu de données de raisonnement de haute qualité à partir de DeepSeek-R1, la reproduction de son processus d'entraînement d'apprentissage par renforcement pur et l'exploration de méthodes d'entraînement en plusieurs étapes. L'objectif final est de créer un modèle de raisonnement transparent et reproductible, stimulant les progrès au sein de la communauté open source.

Lire plus
IA

Janus-Pro-7B : Un modèle unifié de compréhension et de génération multimodale

2025-01-27
Janus-Pro-7B : Un modèle unifié de compréhension et de génération multimodale

DeepSeek présente Janus-Pro-7B, un nouveau framework autorégressif qui unifie la compréhension et la génération multimodales. Contrairement aux approches précédentes, Janus-Pro découple intelligemment l'encodage visuel, permettant un traitement efficace au sein d'une seule architecture de transformateur. Ce découplage résout non seulement le conflit entre les rôles de l'encodeur visuel dans la compréhension et la génération, mais améliore également la flexibilité du framework. Janus-Pro surpasse les modèles unifiés précédents et égale ou dépasse les performances des modèles spécifiques à une tâche. Sa simplicité, sa grande flexibilité et son efficacité en font un candidat de choix pour les modèles multimodaux unifiés de nouvelle génération.

Lire plus
IA

DeepSeek-R1 : Un modèle de raisonnement entraîné par apprentissage par renforcement et ses versions distillées

2025-01-20
DeepSeek-R1 : Un modèle de raisonnement entraîné par apprentissage par renforcement et ses versions distillées

DeepSeek a publié ses modèles de raisonnement de première génération, DeepSeek-R1. Entraîné par apprentissage par renforcement à grande échelle sans réglage fin supervisé, DeepSeek-R1 résout des problèmes tels que la répétition infinie et la faible lisibilité présents dans son prédécesseur, DeepSeek-R1-Zero, en incorporant des données de démarrage à froid avant le RL. DeepSeek-R1 atteint des performances comparables à celles d'OpenAI-o1 sur divers benchmarks. De plus, DeepSeek a open-sourcé DeepSeek-R1 et six modèles distillés basés sur Llama et Qwen. DeepSeek-R1-Distill-Qwen-32B surpasse OpenAI-o1-mini sur plusieurs benchmarks, établissant de nouveaux résultats de pointe pour les modèles distillés. Ces modèles, ainsi qu'une API conviviale et une interface de chat, sont disponibles sur Hugging Face.

Lire plus

Des modèles d'intégration statique 400 fois plus rapides avec Sentence Transformers

2025-01-15
Des modèles d'intégration statique 400 fois plus rapides avec Sentence Transformers

Cet article de blog présente une méthode pour entraîner des modèles d'intégration statique qui s'exécutent de 100 à 400 fois plus rapidement sur CPU que les modèles d'intégration de pointe, tout en conservant la majeure partie de la qualité. Cela ouvre de nombreux cas d'utilisation intéressants, notamment l'exécution sur appareil et dans le navigateur, l'informatique de périphérie, les applications basse consommation et embarquées. Nous appliquons cette recette pour entraîner deux modèles d'intégration extrêmement efficaces : sentence-transformers/static-retrieval-mrl-en-v1 pour la recherche en anglais et sentence-transformers/static-similarity-mrl-multilingual-v1 pour les tâches de similarité multilingue.

Lire plus

ModernBERT : Un remplacement révolutionnaire pour BERT

2024-12-19
ModernBERT : Un remplacement révolutionnaire pour BERT

Answer.AI et LightOn présentent ModernBERT, une famille de modèles uniquement encodeurs de pointe qui surpassent BERT en vitesse et en précision. ModernBERT intègre de nombreuses avancées récentes de la recherche sur les LLM, avec une longueur de contexte étendue (8192 jetons), un traitement plus rapide et des performances supérieures sur diverses références. Ses capacités de récupération de code particulièrement robustes ouvrent de nouvelles applications telles que la recherche de code à grande échelle et des fonctionnalités IDE améliorées. ModernBERT est un remplacement direct pour les modèles BERT et est disponible sur Hugging Face.

Lire plus

Hugging Face Spaces lance ZeroGPU : Allocation dynamique de GPU pour une meilleure efficacité des modèles d'IA

2024-12-15
Hugging Face Spaces lance ZeroGPU : Allocation dynamique de GPU pour une meilleure efficacité des modèles d'IA

Hugging Face Spaces a lancé ZeroGPU, une infrastructure partagée qui alloue dynamiquement des GPU NVIDIA A100 pour optimiser l'utilisation des GPU pour les modèles et les démonstrations d'IA. ZeroGPU offre un accès gratuit au GPU, la prise en charge de plusieurs GPU et réduit les obstacles à l'implémentation des modèles d'IA. Les utilisateurs sélectionnent simplement le matériel ZeroGPU lors de la création d'un espace Gradio et utilisent le décorateur `@spaces.GPU` pour les fonctions dépendantes du GPU. ZeroGPU est compatible avec PyTorch et optimisé pour les bibliothèques transformers et diffusers de Hugging Face, mais il ne fonctionne actuellement qu'avec le SDK Gradio. Les comptes personnels (utilisateurs PRO) peuvent créer jusqu'à 10 espaces ZeroGPU, tandis que les comptes d'organisation (Hub Entreprise) peuvent en créer jusqu'à 50.

Lire plus