Ataque Best-of-N: Quebrando Sistemas de IA

2024-12-15

Pesquisadores desenvolveram um novo algoritmo de ataque de IA chamado Best-of-N (BoN). Este algoritmo de caixa-preta modifica repetidamente prompts — embaralhando aleatoriamente ou colocando em maiúsculas texto, por exemplo — até obter uma resposta prejudicial do sistema de IA. O BoN atingiu taxas de sucesso de ataque (ASRs) impressionantemente altas em modelos de linguagem de código fechado, como GPT-4o (89%) e Claude 3.5 Sonnet (78%), contornando efetivamente as defesas existentes. Além disso, o BoN se estende perfeitamente a modelos de linguagem visual e de áudio, destacando a vulnerabilidade de até mesmo sistemas de IA avançados a variações de entrada aparentemente inócuas. Esta pesquisa destaca preocupações significativas de segurança no campo da IA.