O Desastre do OpenAI FrontierMath: Uma Crise de Transparência na Avaliação de IA
O novo modelo da OpenAI, o o3, alcançou resultados impressionantes no benchmark matemático FrontierMath, mas a história por trás dele é controversa. O FrontierMath, criado pela Epoch AI, foi financiado pela OpenAI, que também teve acesso exclusivo à maioria dos problemas mais difíceis. Essa falta de transparência levanta preocupações sobre a validade do desempenho do o3 e questões mais amplas sobre a transparência e a segurança na avaliação de IA. Mesmo que a OpenAI não tenha treinado diretamente no conjunto de dados, o acesso exclusivo pode ter fornecido uma vantagem indireta. O incidente destaca a necessidade de maior transparência, acordos claros de uso de dados e consideração das implicações de segurança da IA em benchmarks futuros de IA.