Prueba de Aleatoriedad de LLM Revela Sesgo Inesperado
Este experimento probó la aleatoriedad de varios Modelos de Lenguaje Grandes (LLM) de OpenAI y Anthropic. Al hacer que los modelos lanzaran una moneda y predijeran números aleatorios entre 0 y 10, los investigadores descubrieron un sesgo significativo en sus resultados, revelando que no son realmente aleatorios. Por ejemplo, en el experimento del lanzamiento de la moneda, todos los modelos mostraron preferencia por 'cara', con GPT-o1 mostrando el sesgo más extremo en un 49%. En la predicción de números pares/impares, la mayoría de los modelos favorecieron los números impares, con Claude 3.7 Sonnet mostrando el sesgo más fuerte en un 47%. Los hallazgos destacan que incluso los LLM avanzados pueden exhibir patrones inesperados influenciados por sus distribuciones de datos de entrenamiento.
Leer más