Nueva vulnerabilidad en LLMs explota las habilidades de evaluación de los modelos

2025-01-12
Nueva vulnerabilidad en LLMs explota las habilidades de evaluación de los modelos

Investigadores han descubierto una nueva técnica de evasión para LLMs, llamada "Bad Likert Judge". Este método aprovecha la capacidad de los LLMs para identificar contenido dañino, pidiéndoles que califiquen dicho contenido y luego soliciten ejemplos, generando así salidas relacionadas con malware, actividades ilegales, acoso y más. Probada en seis modelos de vanguardia en 1440 casos, la tasa de éxito promedio fue del 71,6%, llegando hasta el 87,6%. Los investigadores recomiendan que los mantenedores de aplicaciones LLM utilicen filtros de contenido para mitigar tales ataques.

Tecnología seguridad LLM evasión