Anthropic révèle le mode « UltraRéflexion » de Claude Code

2025-04-20

Anthropic a publié une documentation complète sur les meilleures pratiques pour son outil d'agent de codage Claude Code CLI. Un conseil fascinant révèle que l'utilisation de mots comme « think », « think hard », etc., déclenche des modes de réflexion étendus. Ces phrases sont directement corrélées à différents budgets de réflexion ; « ultrathink » alloue 31999 jetons, tandis que « think » n'en utilise que 4000. L'analyse du code montre que ces mots clés déclenchent des fonctions qui attribuent des nombres de jetons variables, affectant la profondeur de la réflexion et la sortie de Claude. Cela suggère que « ultrathink » n'est pas une fonctionnalité du modèle Claude lui-même, mais plutôt une amélioration spécifique de Claude Code.

Lire plus
IA

Amélioration du scraper de flux Atom des modèles Ollama avec Gemini 2.5 Pro

2025-03-26

Cet article détaille la création d'un flux Atom alimenté par GitHub Actions et GitHub Pages, récupérant les données des modèles récents de la page des derniers modèles d'Ollama. Initialement construit à l'aide de Claude pour convertir le HTML en Atom, le script a été affiné à l'aide de Google Gemini 2.5 Pro. La mise à jour divise la sortie en deux flux : un contenant tous les modèles et un autre contenant uniquement les 20 derniers, améliorant ainsi l'efficacité et la convivialité.

Lire plus
Développement scraping de modèles

Le modèle open source OLMo-2 surpasse GPT-3.5 ? Configuration facile pour Mac !

2025-03-18
Le modèle open source OLMo-2 surpasse GPT-3.5 ? Configuration facile pour Mac !

Le modèle de langage open source OLMo-2, avec 32 milliards de paramètres, prétend surpasser GPT-3.5-Turbo et GPT-4 mini. Toutes les données, le code, les poids et les détails sont librement disponibles. Cet article détaille une configuration simple pour l'exécuter sur un Mac à l'aide du plugin llm-mlx. Téléchargez le modèle de 17 Go avec quelques commandes et engagez-vous dans une conversation interactive ou générez des images ; l'exemple montre la génération d'un SVG d'un pélican à vélo.

Lire plus
IA

Installation Ingénieuse d'Aider : Contournement des Environnements Virtuels

2025-03-06

L'outil en ligne de commande Aider de Paul Gauthier propose une méthode d'installation innovante qui évite les complexités des environnements virtuels pour les utilisateurs finaux. Une simple commande `pip install aider-install && aider-install` utilise l'outil `uv` pour installer un environnement Python 3.12 autonome, y installer Aider et configurer automatiquement la variable d'environnement PATH. Cela offre une expérience d'installation sûre et facile pour les utilisateurs débutants de Python, en éliminant les étapes de configuration complexes.

Lire plus
Développement

Hallucinations de code LLM : ce n’est pas la fin du monde

2025-03-02

Une plainte courante parmi les développeurs utilisant les LLM pour le code est l’apparition d’« hallucinations » : le LLM invente des méthodes ou des bibliothèques inexistantes. Cependant, l’auteur soutient que ce n’est pas un défaut fatal. Les hallucinations de code sont facilement détectables grâce aux erreurs du compilateur/interpréteur et peuvent être corrigées, parfois automatiquement par des systèmes plus avancés. Le véritable risque réside dans les erreurs non détectées qui ne sont révélées qu’au moment de l’exécution, ce qui exige des compétences solides en matière de tests manuels et d’assurance qualité. L’auteur conseille aux développeurs d’améliorer leurs compétences en lecture, compréhension et révision de code et propose des conseils pour réduire les hallucinations, tels que l’essai de différents modèles, l’utilisation efficace du contexte et le choix de technologies établies. La capacité à revoir le code généré par les LLM est présentée comme un excellent moyen de développer ses compétences.

Lire plus
Développement

Modèle LLM inférieur à 100 Mo désormais installable via pip : présentation de llm-smollm2

2025-02-07
Modèle LLM inférieur à 100 Mo désormais installable via pip : présentation de llm-smollm2

Un nouveau plugin, llm-smollm2, intègre un modèle LLM SmolLM2-135M-Instruct quantifié de moins de 100 Mo, le rendant installable via pip. L'auteur détaille le processus de création, de la recherche d'un modèle approprié de moins de 100 Mo (limité par les restrictions de taille de PyPI) à la suppression des journaux détaillés de llama-cpp-python et à l'empaquetage pour PyPI. Bien que les capacités du modèle soient limitées, il est présenté comme un outil d'apprentissage précieux pour comprendre la technologie LLM.

Lire plus
Développement Quantification de modèle

Document de formation IBM perdu : les ordinateurs ne peuvent pas être tenus responsables (1979)

2025-02-03
Document de formation IBM perdu : les ordinateurs ne peuvent pas être tenus responsables (1979)

Une page légendaire d'une formation interne d'IBM de 1979 a refait surface en ligne, déclarant : « Un ordinateur ne peut jamais être tenu responsable ; par conséquent, un ordinateur ne doit jamais prendre de décision de gestion. » La source originale est perdue, aurait été détruite par une inondation. Cette déclaration résonne puissamment à notre époque pilotée par l'IA, ce qui incite à la réflexion sur la responsabilité et la prise de décision de l'IA.

Lire plus

Candidature chez Anthropic : les assistants IA sont interdits

2025-02-03

Le formulaire de candidature d'Anthropic interdit explicitement l'utilisation d'assistants IA pendant le processus de candidature. L'entreprise souhaite évaluer l'intérêt réel des candidats pour Anthropic et leurs compétences en communication sans médiation par IA. Cela garantit une évaluation juste et authentique des compétences et des processus de pensée des candidats.

Lire plus

OpenAI lance o3-mini : un LLM puissant et économique

2025-02-01

OpenAI a lancé son nouveau modèle linguistique o3-mini, qui excelle dans le benchmark de programmation compétitive Codeforces, surpassant largement GPT-4o et o1. Bien qu'il ne soit pas universellement supérieur sur tous les critères, son prix bas (1,10 $ par million de jetons d'entrée, 4,40 $ par million de jetons de sortie) et sa limite de sortie de jetons exceptionnellement élevée (100 000 jetons) le rendent très compétitif. OpenAI prévoit de l'intégrer à ChatGPT pour la recherche web et la synthèse, et la prise en charge est déjà disponible dans LLM 0.21, mais actuellement limitée aux utilisateurs de niveau 3 (au moins 100 $ dépensés sur l'API). o3-mini offre aux développeurs une option LLM puissante et économique.

Lire plus
IA

llama.cpp WASM : x2 de vitesse grâce à l'optimisation SIMD

2025-01-28

Le blog de Simon Willison met en avant une amélioration significative de llama.cpp : un doublement de la vitesse pour la version WASM, obtenu grâce à l'optimisation des instructions SIMD. Étonnamment, 99% du code a été généré par l'outil de programmation assistée par IA DeepSeek R1. DeepSeek R1 a passé 3 à 5 minutes à « réfléchir » à chaque invite, aidant finalement le développeur à améliorer le plugin llm_groq.py et à éliminer élégamment le model_map, simplifiant ainsi le code. Cela montre l'immense potentiel de l'IA dans l'optimisation et la refactorisation du code.

Lire plus

Qwen 2.5 d'Alibaba : un LLM avec un contexte de 1 million de jetons

2025-01-26

Alibaba a publié une mise à jour majeure de son modèle linguistique large open source, Qwen 2.5, avec une fenêtre de contexte impressionnante de 1 million de jetons ! Ceci est réalisé grâce à une nouvelle technique appelée Dual Chunk Attention. Deux modèles sont disponibles sur Hugging Face : des versions 7B et 14B de paramètres, nécessitant toutes deux une VRAM importante – au moins 120 Go pour le modèle 7B et 320 Go pour le modèle 14B. Bien qu'utilisables pour des tâches plus courtes, Alibaba recommande d'utiliser son framework vLLM personnalisé. Des versions quantifiées GGUF émergent, offrant des tailles plus réduites, mais des problèmes de compatibilité avec les longueurs de contexte complètes pourraient exister. Un blogueur a essayé d'exécuter la version GGUF sur un Mac en utilisant Ollama, rencontrant quelques difficultés et promettant une mise à jour future.

Lire plus

Prédictions IA/LLM : à 1, 3 et 6 ans

2025-01-11

Simon Willison a partagé ses prédictions concernant le développement de l’IA/LLM pour les 1, 3 et 6 prochaines années sur le podcast Oxide and Friends. Il anticipe que les agents d’IA à usage général ne se concrétiseront pas de sitôt, mais que les assistants de codage et de recherche prospéreront. D’ici trois ans, un reportage d’investigation assisté par l’IA pourrait remporter un prix Pulitzer, parallèlement à des lois sur la confidentialité plus strictes. Dans six ans, l’IA pourrait produire des œuvres d’art étonnantes, mais elle pourrait aussi entraîner de graves troubles civils, selon le développement et l’impact économique de l’AGI/ASI. Willison souligne son manque de confiance dans ces prédictions, les proposant comme un point de réflexion intéressant pour l’avenir.

Lire plus

Ma Méthode pour un Blog de Liens : Plus de 7 600 Articles !

2025-01-06
Ma Méthode pour un Blog de Liens : Plus de 7 600 Articles !

Simon Willison partage son approche pour gérer un blog de liens réussi depuis plus de deux décennies. Il détaille ses méthodes de curation et de présentation des liens, soulignant l’importance d’ajouter des commentaires perspicaces, de créditer correctement les créateurs et d’utiliser la technologie (Django, Markdown, Claude) pour améliorer l’expérience. Il affirme que le blog de liens est un moyen peu coûteux et très efficace de contribuer de manière significative au discours en ligne et encourage les autres à adopter cette pratique.

Lire plus

Le règlement de 95 millions de dollars d'Apple avec Siri : plus de désinformation que d'espionnage par micro ?

2025-01-03

Apple a réglé un procès pour 95 millions de dollars concernant des allégations selon lesquelles des enregistrements Siri étaient utilisés pour la publicité ciblée, tout en niant tout acte répréhensible. L'auteur soutient que la précision du ciblage publicitaire est probablement davantage due à la collecte de données par les applications qu'à l'espionnage par micro. Cependant, des preuves anecdotiques d'annonces correspondant à des conversations alimenteront probablement les théories du complot concernant la surveillance par micro, quelle que soit la vérité.

Lire plus
Technologie publicité ciblée

Les LLMs en 2024 : une année de progrès et de défis

2024-12-31
Les LLMs en 2024 : une année de progrès et de défis

2024 a été témoin d'une évolution remarquable des grands modèles de langage (LLMs). Plusieurs organisations ont surpassé les performances de GPT-4, conduisant à une augmentation spectaculaire de l'efficacité, permettant même l'exécution de LLMs sur des ordinateurs portables personnels. Les modèles multimodaux sont devenus courants, avec des capacités vocales et vidéo émergentes. La génération d'applications pilotées par des invites est devenue une commodité, mais l'accès universel aux meilleurs modèles n'a duré que quelques mois. Bien que les « agents » soient restés insaisissables, l'importance de l'évaluation est devenue primordiale. La bibliothèque MLX d'Apple a excellé, contrastant avec les fonctionnalités décevantes d'« Apple Intelligence ». Les modèles d'échelonnage d'inférence ont émergé, réduisant les coûts et améliorant l'impact environnemental, mais soulevant également des préoccupations concernant les conséquences environnementales des nouvelles infrastructures. Les données de formation synthétiques se sont avérées très efficaces, mais la facilité d'utilisation des LLMs est restée un défi, la distribution des connaissances est restée inégale et de meilleures évaluations critiques sont nécessaires.

Lire plus
IA

Alibaba dévoile QvQ : un nouveau modèle de raisonnement visuel

2024-12-25
Alibaba dévoile QvQ : un nouveau modèle de raisonnement visuel

Alibaba a récemment publié QvQ-72B-Preview, un nouveau modèle de raisonnement visuel sous licence Apache 2.0. Conçu pour améliorer les capacités de raisonnement visuel de l'IA, QvQ s'appuie sur le modèle d'inférence à mise à l'échelle QwQ en ajoutant le traitement d'images. Il accepte les images et les invites, générant des processus de raisonnement détaillés et étape par étape. Le blogueur Simon Willison a testé QvQ, le trouvant efficace pour des tâches comme compter les pélicans, mais moins précis sur des problèmes de raisonnement complexes. Actuellement disponible sur Hugging Face Spaces, les projets futurs incluent le déploiement local et une prise en charge plus large des plateformes.

Lire plus

Benchmark LLM : Pélican à vélo

2024-12-16

Simon Willison a créé un benchmark LLM unique : générer une image SVG d’un pélican à vélo. Ce prompt inhabituel visait à tester les capacités créatives des modèles sans se fier à des données d’entraînement préexistantes. Il a testé 16 modèles d’OpenAI, Anthropic, Google Gemini et Meta (Llama sur Cerebras), révélant des variations significatives dans la qualité des SVG générés. Certains modèles ont produit des résultats étonnamment bons, tandis que d’autres ont eu des difficultés.

Lire plus

Stockage des heures pour les événements humains : meilleures pratiques et défis

2024-12-12
Stockage des heures pour les événements humains : meilleures pratiques et défis

Cet article de blog traite des meilleures pratiques pour stocker les heures des événements sur les sites Web d’événements. L’auteur soutient que le stockage direct de l’heure UTC entraîne la perte d’informations cruciales, telles que l’intention initiale de l’utilisateur et l’emplacement. Une meilleure approche consiste à stocker l’heure souhaitée par l’utilisateur et l’emplacement de l’événement, puis à dériver l’heure UTC. Des exemples tels que les erreurs de l’utilisateur, les ajustements des fuseaux horaires internationaux et la mise à jour de l’heure d’été de Microsoft Exchange de 2007 illustrent l’importance de stocker l’heure souhaitée par l’utilisateur. L’auteur recommande de concevoir une interface utilisateur claire et intuitive pour aider les utilisateurs à définir précisément les heures et les emplacements des événements, en soulignant l’importance de maintenir l’intention initiale de l’utilisateur afin d’éviter les erreurs causées par les changements de fuseau horaire.

Lire plus
2 Next →