El Gran Hype de la IA: Benchmarks vs. Realidad
Una startup que utiliza modelos de IA para el escaneo de seguridad de código descubrió mejoras prácticas limitadas a pesar del aumento de las puntuaciones de referencia desde junio de 2024. El autor argumenta que los avances en los grandes modelos de lenguaje no se han traducido en utilidad económica ni en generalización, contradiciendo las afirmaciones públicas. Esto genera preocupaciones sobre los métodos de evaluación de los modelos de IA y la posible exageración de las capacidades por parte de los laboratorios de IA. El autor aboga por centrarse en el rendimiento de las aplicaciones del mundo real en lugar de las puntuaciones de referencia y destaca la necesidad de una evaluación sólida antes de implementar la IA en contextos sociales.