Können LLMs die Bibel korrekt wiedergeben?
Dieser Artikel untersucht die Fähigkeit großer Sprachmodelle (LLMs), Bibelstellen korrekt wiederzugeben. Der Autor entwickelte sechs Tests, um die Genauigkeit verschiedener LLM-Größen bei der Reproduktion von Versen zu bewerten. Größere Modelle (Llama 405B, GPT 4o und Claude Sonnet) schnitten am besten ab und gaben Verse und sogar ganze Kapitel korrekt wieder. Kleinere Modelle (7B Parameterbereich) vermischten häufig Übersetzungen oder halluzinierten Text. Mittelgroße Modelle (70B Parameterbereich) bewahrten im Allgemeinen die Bedeutung, vermischten aber oft Übersetzungen oder paraphrasierten leicht. Der Autor folgert, dass für präzise Bibelzitate größere Modelle vorzuziehen sind, ergänzt durch eine Überprüfung mit einer echten Bibel.