Ataque Best-of-N: Cómo vulnerar sistemas de IA
Investigadores han desarrollado un nuevo algoritmo de ataque de IA llamado Best-of-N (BoN). Este algoritmo de caja negra modifica repetidamente las indicaciones —barajando aleatoriamente o poniendo en mayúsculas el texto, por ejemplo— hasta obtener una respuesta dañina del sistema de IA. BoN logró tasas de éxito de ataque (ASR) impresionantemente altas en modelos de lenguaje de código cerrado como GPT-4o (89%) y Claude 3.5 Sonnet (78%), eludiendo eficazmente las defensas existentes. Además, BoN se extiende sin problemas a modelos de lenguaje visual y de audio, destacando la vulnerabilidad incluso de los sistemas de IA avanzados a variaciones de entrada aparentemente inocuas. Esta investigación subraya preocupaciones de seguridad significativas en el campo de la IA.