Nueva vulnerabilidad en LLMs explota las habilidades de evaluación de los modelos

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

Nueva vulnerabilidad en LLMs explota las habilidades de evaluación de los modelos

2025-01-12

Investigadores han descubierto una nueva técnica de evasión para LLMs, llamada "Bad Likert Judge". Este método aprovecha la capacidad de los LLMs para identificar contenido dañino, pidiéndoles que califiquen dicho contenido y luego soliciten ejemplos, generando así salidas relacionadas con malware, actividades ilegales, acoso y más. Probada en seis modelos de vanguardia en 1440 casos, la tasa de éxito promedio fue del 71,6%, llegando hasta el 87,6%. Los investigadores recomiendan que los mantenedores de aplicaciones LLM utilicen filtros de contenido para mitigar tales ataques.

(www.scworld.com)

Tecnología seguridad LLM evasión

Construyendo la Mejor Organización de Ingeniería de Producto del Mundo: Seis Elementos Clave

Tabby: Tu asistente de codificación IA autohospedado