Los nuevos modelos de OpenAI alucinan más: más grande no siempre es mejor
Los modelos o3 y o4-mini, recientemente lanzados por OpenAI, si bien son de vanguardia en muchos aspectos, muestran un preocupante aumento en las alucinaciones en comparación con sus predecesores. Las pruebas internas revelan tasas de alucinación significativamente más altas que los modelos de razonamiento anteriores (o1, o1-mini y o3-mini) e incluso modelos tradicionales no de razonamiento como GPT-4o. OpenAI no está segura de la causa, lo que supone un desafío para los sectores que exigen precisión. Las pruebas de terceros confirman este problema, con o3 inventando pasos en su proceso de razonamiento. Si bien destaca en codificación y matemáticas, la mayor tasa de alucinación limita su aplicabilidad. Abordar las alucinaciones del modelo es un área clave de la investigación en IA, y otorgar a los modelos capacidades de búsqueda web está surgiendo como un enfoque prometedor.