Le fiasco d'OpenAI FrontierMath : une crise de transparence dans l'évaluation de l'IA
Le nouveau modèle d'OpenAI, o3, a obtenu des résultats impressionnants sur le benchmark mathématique FrontierMath, mais l'histoire qui se cache derrière est controversée. FrontierMath, créé par Epoch AI, a été financé par OpenAI, qui a également eu un accès exclusif à la plupart des problèmes les plus difficiles. Ce manque de transparence soulève des inquiétudes quant à la validité des performances de o3 et des questions plus larges concernant la transparence et la sécurité dans l'évaluation de l'IA. Même si OpenAI ne s'est pas entraîné directement sur l'ensemble de données, l'accès exclusif aurait pu procurer un avantage indirect. L'incident souligne la nécessité d'une plus grande transparence, d'accords clairs sur l'utilisation des données et de la prise en compte des implications pour la sécurité de l'IA dans les futurs benchmarks d'IA.