Benchmark LLM : Pélican à vélo

2024-12-16

Simon Willison a créé un benchmark LLM unique : générer une image SVG d’un pélican à vélo. Ce prompt inhabituel visait à tester les capacités créatives des modèles sans se fier à des données d’entraînement préexistantes. Il a testé 16 modèles d’OpenAI, Anthropic, Google Gemini et Meta (Llama sur Cerebras), révélant des variations significatives dans la qualité des SVG générés. Certains modèles ont produit des résultats étonnamment bons, tandis que d’autres ont eu des difficultés.