LLM-Benchmark: Pelikan auf dem Fahrrad

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

LLM-Benchmark: Pelikan auf dem Fahrrad

2024-12-16

Simon Willison hat einen einzigartigen LLM-Benchmark entwickelt: die Generierung einer SVG-Grafik eines Pelikans, der Fahrrad fährt. Dieser ungewöhnliche Prompt zielte darauf ab, die kreativen Fähigkeiten der Modelle zu testen, ohne auf bereits vorhandene Trainingsdaten zurückzugreifen. Er testete 16 Modelle von OpenAI, Anthropic, Google Gemini und Meta (Llama auf Cerebras) und stellte dabei erhebliche Unterschiede in der Qualität der generierten SVGs fest. Einige Modelle lieferten überraschend gute Ergebnisse, während andere Schwierigkeiten hatten.

(simonwillison.net)

KI Bildgenerierung

Erstaunlicher Gammablitz von supermassivem Schwarzem Loch M87 beobachtet

Muskelatrophie beim Aufstieg auf der Kardaschew-Skala