Die letzte Prüfung der Menschheit: Ein neuer Benchmark für KI
Scale AI und das Center for AI Safety (CAIS) haben die Ergebnisse der "Letzten Prüfung der Menschheit" veröffentlicht, einem neuen Benchmark, der entwickelt wurde, um die Grenzen des KI-Wissens zu testen. Mit über 3.000 Fragen auf Expertenniveau in verschiedenen Bereichen zeigte sich, dass selbst die fortschrittlichsten KI-Modelle (wie GPT-4, Claude 3.5 und Gemini 1.5) weniger als 10 % der Fragen richtig beantwortet haben. Dies unterstreicht erhebliche Lücken in den Fähigkeiten des komplexen Denkens. Der Benchmark geht das Problem der 'Benchmark-Sättigung' an, bei der Modelle in bestehenden Tests hervorragend abschneiden, aber mit neuen Problemen zu kämpfen haben. Der Datensatz wird öffentlich zugänglich gemacht, um die KI-Forschung und -Entwicklung voranzutreiben und wertvolle Einblicke in den aktuellen Stand und die zukünftige Richtung der KI zu liefern.
Mehr lesen