LLM-Zufälligkeitstest enthüllt unerwartete Verzerrung

2025-04-30

Dieses Experiment testete die Zufälligkeit verschiedener großer Sprachmodelle (LLMs) von OpenAI und Anthropic. Indem die Modelle eine Münze werfen und Zufallszahlen zwischen 0 und 10 vorhersagen ließen, entdeckten die Forscher eine signifikante Verzerrung in ihren Ergebnissen, was zeigt, dass sie nicht wirklich zufällig sind. Beispielsweise zeigte im Münzwurfexperiment jedes Modell eine Präferenz für „Kopf“, wobei GPT-o1 die extremste Verzerrung mit 49 % aufwies. Bei der Vorhersage von geraden/ungeraden Zahlen bevorzugten die meisten Modelle ungerade Zahlen, wobei Claude 3.7 Sonnet die stärkste Verzerrung mit 47 % zeigte. Die Ergebnisse unterstreichen, dass selbst fortschrittliche LLMs unerwartete Muster aufweisen können, die von den Verteilungen ihrer Trainingsdaten beeinflusst werden.