Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

Ataque Best-of-N: Cómo vulnerar sistemas de IA

2024-12-15

Investigadores han desarrollado un nuevo algoritmo de ataque de IA llamado Best-of-N (BoN). Este algoritmo de caja negra modifica repetidamente las indicaciones —barajando aleatoriamente o poniendo en mayúsculas el texto, por ejemplo— hasta obtener una respuesta dañina del sistema de IA. BoN logró tasas de éxito de ataque (ASR) impresionantemente altas en modelos de lenguaje de código cerrado como GPT-4o (89%) y Claude 3.5 Sonnet (78%), eludiendo eficazmente las defensas existentes. Además, BoN se extiende sin problemas a modelos de lenguaje visual y de audio, destacando la vulnerabilidad incluso de los sistemas de IA avanzados a variaciones de entrada aparentemente inocuas. Esta investigación subraya preocupaciones de seguridad significativas en el campo de la IA.

(arxiv.org)

IA Seguridad de IA