Webtagr - Technologienummer

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

Die letzte Prüfung der Menschheit: Ein neuer Benchmark für KI

2025-01-23

Scale AI und das Center for AI Safety (CAIS) haben die Ergebnisse der "Letzten Prüfung der Menschheit" veröffentlicht, einem neuen Benchmark, der entwickelt wurde, um die Grenzen des KI-Wissens zu testen. Mit über 3.000 Fragen auf Expertenniveau in verschiedenen Bereichen zeigte sich, dass selbst die fortschrittlichsten KI-Modelle (wie GPT-4, Claude 3.5 und Gemini 1.5) weniger als 10 % der Fragen richtig beantwortet haben. Dies unterstreicht erhebliche Lücken in den Fähigkeiten des komplexen Denkens. Der Benchmark geht das Problem der 'Benchmark-Sättigung' an, bei der Modelle in bestehenden Tests hervorragend abschneiden, aber mit neuen Problemen zu kämpfen haben. Der Datensatz wird öffentlich zugänglich gemacht, um die KI-Forschung und -Entwicklung voranzutreiben und wertvolle Einblicke in den aktuellen Stand und die zukünftige Richtung der KI zu liefern.

(scale.com)

KI KI-Benchmark