Ataques de envenenamiento de herramientas de LLM: Envenenamiento de esquema completo y ataques de envenenamiento de herramientas avanzados

2025-06-08
Ataques de envenenamiento de herramientas de LLM: Envenenamiento de esquema completo y ataques de envenenamiento de herramientas avanzados

El Protocolo de Contexto de Modelo (MCP) de Anthropic permite que los Modelos de Lenguaje Grandes (LLMs) interactúen con herramientas externas, pero los investigadores han descubierto nuevos ataques: Ataques de Envenenamiento de Herramientas (TPAs). Las investigaciones anteriores se centraron en los campos de descripción de herramientas, pero los nuevos hallazgos revelan que la superficie de ataque se extiende a todo el esquema de herramientas, denominado "Envenenamiento de Esquema Completo" (FSP). Aún más peligrosos son los "Ataques de Envenenamiento de Herramientas Avanzados" (ATPAs), que manipulan las salidas de las herramientas, lo que dificulta el análisis estático. Los ATPAs engañan a los LLMs para que filtren información confidencial creando mensajes de error engañosos o indicaciones de seguimiento. El artículo sugiere mitigar estos ataques mediante la detección estática, la aplicación estricta, la auditoría en tiempo de ejecución y las verificaciones de integridad contextual.

IA