Benchmark de LLM: Pelícano en Bicicleta
2024-12-16
Simon Willison creó un benchmark único de LLM: generar una imagen SVG de un pelícano montando una bicicleta. Este prompt inusual tenía como objetivo probar las habilidades creativas de los modelos sin depender de datos de entrenamiento preexistentes. Probó 16 modelos de OpenAI, Anthropic, Google Gemini y Meta (Llama en Cerebras), revelando variaciones significativas en la calidad de los SVG generados. Algunos modelos produjeron resultados sorprendentemente buenos, mientras que otros tuvieron dificultades.