Los nuevos modelos de OpenAI alucinan más: más grande no siempre es mejor

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

2025-04-18

Los modelos o3 y o4-mini, recientemente lanzados por OpenAI, si bien son de vanguardia en muchos aspectos, muestran un preocupante aumento en las alucinaciones en comparación con sus predecesores. Las pruebas internas revelan tasas de alucinación significativamente más altas que los modelos de razonamiento anteriores (o1, o1-mini y o3-mini) e incluso modelos tradicionales no de razonamiento como GPT-4o. OpenAI no está segura de la causa, lo que supone un desafío para los sectores que exigen precisión. Las pruebas de terceros confirman este problema, con o3 inventando pasos en su proceso de razonamiento. Si bien destaca en codificación y matemáticas, la mayor tasa de alucinación limita su aplicabilidad. Abordar las alucinaciones del modelo es un área clave de la investigación en IA, y otorgar a los modelos capacidades de búsqueda web está surgiendo como un enfoque prometedor.