Metas Llama 4: Benchmarking-Skandal erschüttert die KI-Welt

2025-04-13
Metas Llama 4: Benchmarking-Skandal erschüttert die KI-Welt

Die kürzlich von Meta veröffentlichte Llama 4-Familie großer Sprachmodelle, insbesondere die Maverick-Version, beeindruckte die KI-Welt zunächst mit ihrer hervorragenden Leistung in Benchmarks und übertraf Modelle wie OpenAIs GPT-4o und Googles Gemini 2.0 Flash. Doch schnell zeigten sich Unterschiede zwischen der Benchmark-Version und der öffentlich verfügbaren Version, was zu Betrugsvorwürfen führte. Meta gab zu, eine speziell optimierte Version für den Benchmark verwendet zu haben, und hat seitdem die unveränderte Llama 4 Maverick-Version zu LMArena hinzugefügt, was zu einem deutlichen Rückgang im Ranking führte. Dieser Vorfall beleuchtet Transparenzprobleme beim Benchmarking großer Modelle und regt zur Reflexion über die Methoden der Modellbewertung an.

KI