Benchmark de Calidad de Traducción de Lenguaje Barato y Eficaz

2025-05-20
Benchmark de Calidad de Traducción de Lenguaje Barato y Eficaz

Un desarrollador intentó construir un benchmark de calidad de traducción de lenguaje más riguroso científicamente utilizando evaluaciones por pares y un modelo Bradley-Terry. Los intentos iniciales fallaron debido a los altos costos, con cada experimento requiriendo cientos o incluso miles de dólares. Se ideó un sistema de compromiso, combinando el antiguo sistema de puntuación con evaluaciones por pares. Al procesar frases iterativamente, utilizar varios sistemas de evaluación de traducción para puntuar y combinar el análisis estadístico, los costos se redujeron drásticamente, produciendo resultados confiables con buenos valores p. Aunque sacrificando cierto rigor en el cegamiento, el nuevo sistema mejoró significativamente la eficiencia, completando una prueba en alemán por aproximadamente 6 dólares.