Webtagr - Résumé de news de technologie

Ollama Turbo : Exécution ultra-rapide des LLMs open source

2025-08-06

Ollama Turbo est une nouvelle façon d'exécuter de grands modèles de langage open source en utilisant du matériel de niveau centre de données. De nombreux nouveaux modèles sont trop volumineux pour les GPU largement disponibles ou s'exécutent trop lentement. Ollama Turbo offre une solution pour une exécution rapide, compatible avec l'application, la CLI et l'API d'Ollama. Actuellement en préversion, il prend en charge les modèles gpt-oss-20b et gpt-oss-120b. Il fonctionne avec la CLI, l'API et les bibliothèques JavaScript/Python d'Ollama. Ollama n'enregistre ni ne conserve aucune requête effectuée en mode Turbo. Tout le matériel est situé aux États-Unis. Des limites d'utilisation (horaires et quotidiennes) sont en place pour gérer la capacité, avec une tarification à l'utilisation prochainement disponible.

Lire plus

(ollama.com)

IA

Ollama lance une application de bureau pour une interaction plus facile avec les LLM

2025-07-31

Ollama a lancé une nouvelle application de bureau pour macOS et Windows, offrant un moyen plus simple d'interagir avec les grands modèles de langage. L'application prend en charge le glisser-déposer de fichiers (texte ou PDF), facilitant le traitement des documents. Les utilisateurs peuvent également augmenter la longueur du contexte dans les paramètres pour les fichiers plus volumineux (nécessite plus de mémoire). La prise en charge multimodale permet d'envoyer des images aux modèles compatibles tels que Gemma 3 de Google DeepMind, et les fichiers de code peuvent être traités pour leur compréhension. Une version en interface en ligne de commande est également disponible.

Lire plus

(ollama.com)

Développement Application de Bureau

Nouveau moteur multimodale d'Ollama : inférence locale pour les modèles de vision

2025-05-16

Ollama a lancé un nouveau moteur prenant en charge l'inférence locale pour les modèles multimodaux, en commençant par les modèles de vision comme Llama 4 Scout et Gemma 3. En abordant les limitations de la bibliothèque ggml pour les modèles multimodaux, le moteur améliore la modularité du modèle, la précision et la gestion de la mémoire pour une inférence fiable et efficace avec des images de grande taille et des architectures complexes (y compris les modèles Mixture-of-Experts). Cette focalisation sur la précision et la fiabilité jette les bases pour la prise en charge future de la parole, de la génération d'images et de contextes plus longs.

Lire plus

(ollama.com)

IA inférence locale

Gemma de Google : une famille de modèles multimodaux légers

2025-03-12

Google a dévoilé Gemma, une famille légère de modèles multimodaux basés sur la technologie Gemini. Les modèles Gemma 3 traitent le texte et les images, disposent d'une fenêtre de contexte de 128 K et prennent en charge plus de 140 langues. Disponibles en tailles de paramètres de 1B, 4B, 12B et 27B, ils excellent dans des tâches telles que la réponse aux questions, la summarisation et le raisonnement, tandis que leur conception compacte permet leur déploiement sur des appareils aux ressources limitées. Les résultats des benchmarks montrent de solides performances sur diverses tâches, notamment en matière de capacités multilingues et multimodales.

Lire plus

(ollama.com)

IA Modèle Léger

DeepSeek-R1 : Une famille de modèles de raisonnement au niveau d'OpenAI-o1

2025-01-21

DeepSeek a publié sa première génération de modèles de raisonnement, DeepSeek-R1, affichant des performances comparables à celles d'OpenAI-o1. La série comprend des modèles allant de 1,5 B à 70 B de paramètres, facilement exécutables via Ollama. DeepSeek-R1 excelle dans les tâches de mathématiques, de codage et de raisonnement, se positionnant comme un concurrent majeur dans le paysage de l'IA.

Lire plus

(ollama.com)

IA modèle de raisonnement

Microsoft publie Phi-4 : un modèle linguistique ouvert de 14 milliards de paramètres

2025-01-12

Microsoft a dévoilé Phi-4, un nouveau modèle linguistique ouvert de 14 milliards de paramètres. Construit à partir d'un mélange de données synthétiques, de sites web du domaine public filtrés et de livres académiques et de jeux de données de questions-réponses, Phi-4 a bénéficié d'un processus d'amélioration et d'alignement rigoureux garantissant le respect précis des instructions et des mesures de sécurité robustes. Avec une longueur de contexte de 16 000 jetons, il est conçu pour les systèmes et applications d'IA à usage général (principalement en anglais) nécessitant des environnements aux ressources mémoire/calcul limitées, une faible latence et de solides capacités de raisonnement et de logique. Microsoft souligne que les développeurs doivent tenir compte des limites des modèles linguistiques et atténuer les problèmes de précision, de sécurité et d'équité, notamment dans les scénarios à haut risque.

Lire plus

(ollama.com)

IA