Metas Llama 4: Benchmarking-Skandal erschüttert die KI-Welt
Die kürzlich von Meta veröffentlichte Llama 4-Familie großer Sprachmodelle, insbesondere die Maverick-Version, beeindruckte die KI-Welt zunächst mit ihrer hervorragenden Leistung in Benchmarks und übertraf Modelle wie OpenAIs GPT-4o und Googles Gemini 2.0 Flash. Doch schnell zeigten sich Unterschiede zwischen der Benchmark-Version und der öffentlich verfügbaren Version, was zu Betrugsvorwürfen führte. Meta gab zu, eine speziell optimierte Version für den Benchmark verwendet zu haben, und hat seitdem die unveränderte Llama 4 Maverick-Version zu LMArena hinzugefügt, was zu einem deutlichen Rückgang im Ranking führte. Dieser Vorfall beleuchtet Transparenzprobleme beim Benchmarking großer Modelle und regt zur Reflexion über die Methoden der Modellbewertung an.