LLM-Benchmark: Pelikan auf dem Fahrrad
Simon Willison hat einen einzigartigen LLM-Benchmark entwickelt: die Generierung einer SVG-Grafik eines Pelikans, der Fahrrad fährt. Dieser ungewöhnliche Prompt zielte darauf ab, die kreativen Fähigkeiten der Modelle zu testen, ohne auf bereits vorhandene Trainingsdaten zurückzugreifen. Er testete 16 Modelle von OpenAI, Anthropic, Google Gemini und Meta (Llama auf Cerebras) und stellte dabei erhebliche Unterschiede in der Qualität der generierten SVGs fest. Einige Modelle lieferten überraschend gute Ergebnisse, während andere Schwierigkeiten hatten.
Mehr lesen