Benchmark de LLM: Pelicano em uma Bicicleta

2024-12-16

Simon Willison criou um benchmark único de LLM: gerar uma imagem SVG de um pelicano andando de bicicleta. Esse prompt incomum tinha como objetivo testar as habilidades criativas dos modelos sem depender de dados de treinamento pré-existentes. Ele testou 16 modelos de OpenAI, Anthropic, Google Gemini e Meta (Llama no Cerebras), revelando variações significativas na qualidade dos SVGs gerados. Alguns modelos produziram resultados surpreendentemente bons, enquanto outros tiveram dificuldades.