Benchmark de Qualidade de Tradução de Linguagem Barato e Eficaz

Um desenvolvedor tentou construir um benchmark de qualidade de tradução de linguagem mais rigoroso cientificamente usando avaliações em pares e um modelo Bradley-Terry. As tentativas iniciais falharam devido a altos custos, com cada experimento exigindo centenas ou até milhares de dólares. Um sistema de compromisso foi concebido, combinando o antigo sistema de pontuação com avaliações em pares. Ao processar frases iterativamente, usar vários sistemas de avaliação de tradução para pontuar e combinar análise estatística, os custos foram drasticamente reduzidos, produzindo resultados confiáveis com bons valores-p. Embora sacrificando algum rigor no cegamento, o novo sistema melhorou significativamente a eficiência, completando um teste em alemão por cerca de US$ 6.