Ataques de envenenamiento de herramientas de LLM: Envenenamiento de esquema completo y ataques de envenenamiento de herramientas avanzados

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

2025-06-08

El Protocolo de Contexto de Modelo (MCP) de Anthropic permite que los Modelos de Lenguaje Grandes (LLMs) interactúen con herramientas externas, pero los investigadores han descubierto nuevos ataques: Ataques de Envenenamiento de Herramientas (TPAs). Las investigaciones anteriores se centraron en los campos de descripción de herramientas, pero los nuevos hallazgos revelan que la superficie de ataque se extiende a todo el esquema de herramientas, denominado "Envenenamiento de Esquema Completo" (FSP). Aún más peligrosos son los "Ataques de Envenenamiento de Herramientas Avanzados" (ATPAs), que manipulan las salidas de las herramientas, lo que dificulta el análisis estático. Los ATPAs engañan a los LLMs para que filtren información confidencial creando mensajes de error engañosos o indicaciones de seguimiento. El artículo sugiere mitigar estos ataques mediante la detección estática, la aplicación estricta, la auditoría en tiempo de ejecución y las verificaciones de integridad contextual.