Günstiger und effizienter Benchmark für die Qualität von maschineller Übersetzung
Ein Entwickler versuchte, einen wissenschaftlich fundierteren Benchmark für die Qualität maschineller Übersetzung zu erstellen, indem er paarweise Vergleiche und ein Bradley-Terry-Modell verwendete. Die ersten Versuche scheiterten aufgrund hoher Kosten; jedes Experiment kostete Hunderte oder sogar Tausende von Dollar. Daher wurde ein Kompromiss-System entwickelt, das das alte Bewertungssystem mit paarweisen Vergleichen kombiniert. Durch iterative Verarbeitung von Sätzen, Verwendung mehrerer Übersetzungbewertungssysteme zur Bewertung und Kombination statistischer Analysen wurden die Kosten drastisch gesenkt und zuverlässige Ergebnisse mit guten p-Werten erzielt. Obwohl die strenge Verblindung etwas eingeschränkt wurde, verbesserte das neue System die Effizienz deutlich; ein deutscher Test konnte für ca. 6 US-Dollar durchgeführt werden.